Journal sourcetex: remettre les documents de Wikisource en LaTex

Posté par (page perso) . Licence CC by-sa
Tags : aucun
15
27
déc.
2012

Bonsoir Journal!

Je profite d'un moment d'accalmie entre mes études (et ses pauses) pour te présenter un nouveau projet: sourcetex.

Tout part d'un constat simple: les documents proposés par Wikisource ne sont pas structurés de façon pérenne—c'est à dire que l'on puisse facilement les réutiliser dans d'autres formats. Quel candidat se propose alors en premier lieu? Ce cher et bien aimé LaTex.

sourcetex se propose de servir d'outil afin de remettre des documents de plateformes comme Wikisource(pour le moment, la seule plateforme supportée) en LaTex, et d'offrir une collection de documents ainsi remis dans ce format.

Il est encore jeune, immature, assez crade point de vue code, mais fonctionnel (déjà deux documents presque remis en état lisibles).

Tout se passe ici: https://github.com/lordblackfox/sourcetex ;

J'espère que tu vas aimer

  • # candidat

    Posté par (page perso) . Évalué à  1 .

    Quel candidat se propose alors en premier lieu?

    txt2tags bien entendu !

    Je ne suis pas vraiment certain par ailleurs que le format LaTeX soit particulièrement aisé à convertir proprement dans d'autres formats, sauf à utiliser un outil comme pandoc.

    « I approve of any development that makes it more difficult for governments and criminals to monopolize the use of force. » Eric Raymond

    • [^] # Re: candidat

      Posté par . Évalué à  7 .

      Même avis : je ne pense pas que Latex soit un bon format de transition. C'est un format final intéressant à plein d'égards, mais il reste mal pensé et mal structuré (en plus d'être imbitable), ce qui fait que convertir un document Latex vers autre chose ne peut être qu'un long chemin de croix.

      • [^] # Re: candidat

        Posté par (page perso) . Évalué à  3 .

        oui sans compter les incompatibilités entre packages, certains packages qui deviennent "deprecated" sans prévenir et qui imposent l'usage d'autres packages en utilisant une syntaxe complètement différente, pas sûr que ce soit un format rêvé pour faire des choses pérennes.

        Et pourquoi pas le (x)html ? Au moins c'est standard, et il existera toujours des codes pour le lire.

        • [^] # Re: candidat

          Posté par (page perso) . Évalué à  2 .

          L'(x)html me semble bien mieux que txt2tags. Le champs des possibles est bien plus vaste !

          Sinon, je trouve le format Org d'Emacs vraiment bien et très sympa.

          • [^] # Re: candidat

            Posté par (page perso) . Évalué à  1 .

            txt2tags a de sérieux manques dans sa syntaxe.

            Par contre je vais un peu creuser les deux autres. Merci :)

            • [^] # Re: candidat

              Posté par (page perso) . Évalué à  7 . Dernière modification : le 27/12/12 à 12:47

              txt2tags a de sérieux manques dans sa syntaxe.

              Impossible. Les spécifications de txt2tags permettent justement de rajouter des règles de pre et postprocesseur, ce qui lève toute limitation que tu pourrais avoir dans la syntaxe de base. Bref, txt2tags est complètement extensible, contrairement à d'autres langages de type wiki qui sont bloqués dans leur syntaxe et qui subissent divers forks ou variations incompatibles entre elles à cause de ça (par exemple la version markdown de stack overflow, celle de github, celle de linuxfr…).

              Par exemple si on veut rajouter dans un document txt2tags des lettrines, rapidement (on peut faire plus propre mais là c'est juste un exemple rapide), et qu'on définit qu'une lettrine s'écrit par exemple comme ça : @@L@@ettrine.

              Collez ça dans
              http://www.txt2tags.org/txt2tags.form.php

              Test de lettrine
              
              
              %!postproc: '@@(.)@@' '<span style="font-size: 200%; vertical-align: baseline">\1</span>'
              
              @@C@@eci est un texte avec des lettrines. Maecenas congue ligula ac quam viverra nec consectetur ante hendrerit. Donec et mollis dolor. Praesent et diam eget libero egestas mattis sit amet vitae augue. Nam tincidunt congue enim, ut porta lorem lacinia consectetur.
              
              @@L@@orem ipsum dolor sit amet, consectetur adipiscing elit. Donec a diam lectus. Sed sit amet ipsum mauris. Maecenas congue ligula ac quam viverra nec consectetur ante hendrerit. Donec et mollis dolor. Praesent et diam eget libero egestas mattis sit amet vitae augue. Nam tincidunt congue enim, ut porta lorem lacinia consectetur.
              
              

              « I approve of any development that makes it more difficult for governments and criminals to monopolize the use of force. » Eric Raymond

          • [^] # Re: candidat

            Posté par (page perso) . Évalué à  3 .

            sauf que pour convertir proprement du xhtml vers un beau document LaTeX, ça va être du sport… (et que xhtml reste imbitable à lire et éditer)

            « I approve of any development that makes it more difficult for governments and criminals to monopolize the use of force. » Eric Raymond

            • [^] # Re: candidat

              Posté par (page perso) . Évalué à  2 .

              xhtml reste imbitable à lire et éditer

              le besoin à la base est de stocker des documents de façon pérenne, xhtml permet cela. Après on peut discuter de la lisibilité du truc, mais c'est plus fait pour être lu par un ordinateur que par un humain. On peut toujours le convertir en autre chose pour le rendre plus lisible.

              • [^] # Re: candidat

                Posté par (page perso) . Évalué à  1 .

                le besoin à la base est de stocker des documents de façon pérenne, xhtml permet cela.

                ce n'est pas vraiment ce qui est dit :

                les documents proposés par Wikisource ne sont pas structurés de façon pérenne—c'est à dire que l'on puisse facilement les réutiliser dans d'autres formats.

                il ne parle pas de stockage, mais de la structure, en vue de convertir dans d'autres formats.

                Et xhtml n'est pas prévu pour être converti vers du LaTeX par exemple.

                « I approve of any development that makes it more difficult for governments and criminals to monopolize the use of force. » Eric Raymond

              • [^] # Re: candidat

                Posté par . Évalué à  2 .

                c'est plus fait pour être lu par un ordinateur

                Sauf que pour être sûr que le document soit valide, il faut 2 passes… d'autres formats sont bien plus efficaces et rapides selon mes impressions, comme YAML.
                Lisible par l'homme et la machine, rapide à parser, moins volumineux… c'est un peu comme pour les clavier, le 1er sorti à gagné, peu importe les améliorations technologiques qui suivent.

                Ca peut se comprendre: compatibilité descendante. Mais que tout le monde continue d'encenser XML, je crois que je mettrais longtemps à comprendre pourquoi. (Oui, XML, parce que XHTML est juste une spécialisation de XML)
                Enfin, c'est comme ça…

            • [^] # Re: candidat

              Posté par (page perso) . Évalué à  1 .

              À ce propos, l'usage de plus en plus courant de (x)html (au détriment du wikitexte) par les utilisateurs sur les projets wikimedia peut-il être problématique à terme (conversion par ex.) ?

              Debug the Web together.

  • # apéritif de parser

    Posté par (page perso) . Évalué à  1 . Dernière modification : le 27/12/12 à 12:53

    les documents proposés par Wikisource ne sont pas structurés de façon pérenne

    Bizarre, visiblement wikisource utilise un langage de markdown (wiki-syntax) qui a prouvé sa pérennité : La preuve, c'est que tu peux récupérer le fichier, le lire, et utiliser une grande variété d'outils pour le convertir dans un langage de markup (comme par exemple le wiki de Wikisource lui-même pour le HTML) donc j'ai du mal à comprendre le problème, à la limite, pour faire ce que tu veux faire, tu peux utiliser org-mode..?

    Ton souci, ce sont les articles mal saisis par les utilisateurs ?

    • [^] # Re: apéritif de parser

      Posté par (page perso) . Évalué à  2 .

      wikisource utilise un langage de markdown

      de markup, car markdown est encore un autre langage du même style.

      par contre tu as raison, il est possible, et même plutôt aisé, de reparser la source documents de wikipedia ou autres, pour les convertir dans un autre système, ce que semble proposer d'ailleurs l'auteur de ce journal.

      « I approve of any development that makes it more difficult for governments and criminals to monopolize the use of force. » Eric Raymond

    • [^] # Re: apéritif de parser

      Posté par (page perso) . Évalué à  3 . Dernière modification : le 27/12/12 à 13:16

      Ça dépend des documents. Genre pour Proudhon (celui dont à la base j'avais besoin):

      {{TextQuality|100%}}{{Titre|<big>Du Principe fédératif<br />et de la nécessité de reconstituer<br />le Parti de la Révolution</big>
      |[[Auteur:Pierre-Joseph Proudhon| <big>Pierre-Joseph Proudhon</big>]]
      | E. Dentu, 1863}}
      
      [Catégorie:Anarchisme](http://fr.wikipedia.org/wiki/Catégorie:Anarchisme "Définition Wikipédia")
      [Catégorie:Philosophie](http://fr.wikipedia.org/wiki/Catégorie:Philosophie "Définition Wikipédia")
      [Catégorie:Textes entiers](http://fr.wikipedia.org/wiki/Catégorie:Textes entiers "Définition Wikipédia")
      
      <pages index="Proudhon - Du Principe fédératif.djvu" from=12 to=331 />
      
      <references />
      
      

      Du coup ça aide pas vraiment.

      Par contre si c'est juste parce que le bouquin inclus n'a pas été retravaillé, je pourrai ptet plutôt le faire pour utiliser le markup de wikisources

      • [^] # Re: apéritif de parser

        Posté par (page perso) . Évalué à  1 .

        Arg, oui ça y est je viens de comprendre, anéfé. Et typiquement, que deviennent les liens et les catégories de ton exemple dans ton document cible ? Tu les mets en notes, genre meta-données ?

        • [^] # Re: apéritif de parser

          Posté par (page perso) . Évalué à  1 .

          le texte est extrait (un querySelector sur le bon élément), tout ce qui n'en fait pas partie est balancé

          • [^] # Re: apéritif de parser

            Posté par (page perso) . Évalué à  1 .

            Ben c'est bien de garder les références externes, non ? Peut-être au moins juste l'URL de la page Wikisource ?

            Ça doit pas être bien compliqué, ça peut être prêt hier ? Génial ;)

            • [^] # Re: apéritif de parser

              Posté par (page perso) . Évalué à  3 .

              D’autant que le travail de mise en forme, bien que partagé sous licence libre, est soumis au droit d’auteur. Il est donc légalement obligatoire de citer au moins la source permettant de retrouver les auteurs pour respecter la licence.

              • [^] # Re: apéritif de parser

                Posté par . Évalué à  1 .

                En plus du côté légal, qui semble être la seule règle présente de nos jours, à mon grand dam, il s'agit aussi… d'une question de respect, l'une des choses qui font qu'une société peut fonctionner sans (trop de) haine.

                Développeur d'un logiciel libre, que quelqu'un distribue un binaire ne me dérange pas, cependant j'apprécierais un p'tit message dans mon mail accompagné d'un lien vers mon projet, vous voyez ce que je veux dire. Politesse, respect, … rien de légal, certes, mais tout du savoir-vivre.
                Je ne vois pas pourquoi le monde logiciel devrait se passer de ces notions éculées. (non non pas enculée, éculées! Je ne parle pas de mouches, que diable!)

      • [^] # Re: apéritif de parser

        Posté par (page perso) . Évalué à  3 .

        Pour ceux qui ne connaissent pas la syntaxe mediawiki, ici on a utilisation de genre de macros, on pourrait avoir le même genre « d’horreur » à priori en latex (avec un syntaxe encore plus imbitable cela dit pour la création des macros).

        Sur wikisource il faut ajouter qu’il y a la spécificité de tenter de coller à une mise en page d’une édition imprimée donnée tout en l’adaptant à un format web. Les documents sont donc souvent transcrit à partir de numérisation en format déjàvu, avec un système permettant de corriger l’OCR dans la syntaxe wiki en vis à vis de chaque page, exemple avec le cas du texte dont tu parles.

        Ceci permet également de générer les fichiers epub correspondants à une édition, à partir de http://wsexport.wmflabs.org/tool/book.php

        Disposer d’un outil qui facilite la conversion en pdf via tex, ça pourrait être intéressant effectivement d’un point de vu qualité de la mise en page, cela étant je vois pas du tout l’intérêt d’un point de vu pérennité des données.

  • # Outil dédié ?

    Posté par . Évalué à  2 .

    Pourquoi faire son petit outil dans son coin et ne pas contribuer à des projets qui essaient de permettre la traduction des différents formats texte ? Pandoc me vient à l'esprit par exemple.

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.