Bonsoir Journal!
Je profite d'un moment d'accalmie entre mes études (et ses pauses) pour te présenter un nouveau projet: sourcetex.
Tout part d'un constat simple: les documents proposés par Wikisource ne sont pas structurés de façon pérenne—c'est à dire que l'on puisse facilement les réutiliser dans d'autres formats. Quel candidat se propose alors en premier lieu? Ce cher et bien aimé LaTex.
sourcetex se propose de servir d'outil afin de remettre des documents de plateformes comme Wikisource(pour le moment, la seule plateforme supportée) en LaTex, et d'offrir une collection de documents ainsi remis dans ce format.
Il est encore jeune, immature, assez crade point de vue code, mais fonctionnel (déjà deux documents presque remis en état lisibles).
Tout se passe ici: https://github.com/lordblackfox/sourcetex ;
J'espère que tu vas aimer
# candidat
Posté par fravashyo . Évalué à 1.
txt2tags bien entendu !
Je ne suis pas vraiment certain par ailleurs que le format LaTeX soit particulièrement aisé à convertir proprement dans d'autres formats, sauf à utiliser un outil comme pandoc.
« I approve of any development that makes it more difficult for governments and criminals to monopolize the use of force. » Eric Raymond
[^] # Re: candidat
Posté par arnaudus . Évalué à 7.
Même avis : je ne pense pas que Latex soit un bon format de transition. C'est un format final intéressant à plein d'égards, mais il reste mal pensé et mal structuré (en plus d'être imbitable), ce qui fait que convertir un document Latex vers autre chose ne peut être qu'un long chemin de croix.
[^] # Re: candidat
Posté par zerkman (site web personnel) . Évalué à 3.
oui sans compter les incompatibilités entre packages, certains packages qui deviennent "deprecated" sans prévenir et qui imposent l'usage d'autres packages en utilisant une syntaxe complètement différente, pas sûr que ce soit un format rêvé pour faire des choses pérennes.
Et pourquoi pas le (x)html ? Au moins c'est standard, et il existera toujours des codes pour le lire.
[^] # Re: candidat
Posté par Jiehong (site web personnel) . Évalué à 2.
L'(x)html me semble bien mieux que txt2tags. Le champs des possibles est bien plus vaste !
Sinon, je trouve le format Org d'Emacs vraiment bien et très sympa.
[^] # Re: candidat
Posté par lordblackfox . Évalué à 1.
txt2tags a de sérieux manques dans sa syntaxe.
Par contre je vais un peu creuser les deux autres. Merci :)
[^] # Re: candidat
Posté par fravashyo . Évalué à 7. Dernière modification le 27 décembre 2012 à 12:47.
Impossible. Les spécifications de txt2tags permettent justement de rajouter des règles de pre et postprocesseur, ce qui lève toute limitation que tu pourrais avoir dans la syntaxe de base. Bref, txt2tags est complètement extensible, contrairement à d'autres langages de type wiki qui sont bloqués dans leur syntaxe et qui subissent divers forks ou variations incompatibles entre elles à cause de ça (par exemple la version markdown de stack overflow, celle de github, celle de linuxfr…).
Par exemple si on veut rajouter dans un document txt2tags des lettrines, rapidement (on peut faire plus propre mais là c'est juste un exemple rapide), et qu'on définit qu'une lettrine s'écrit par exemple comme ça : @@L@@ettrine.
Collez ça dans
http://www.txt2tags.org/txt2tags.form.php
« I approve of any development that makes it more difficult for governments and criminals to monopolize the use of force. » Eric Raymond
[^] # Re: candidat
Posté par fravashyo . Évalué à 3.
sauf que pour convertir proprement du xhtml vers un beau document LaTeX, ça va être du sport… (et que xhtml reste imbitable à lire et éditer)
« I approve of any development that makes it more difficult for governments and criminals to monopolize the use of force. » Eric Raymond
[^] # Re: candidat
Posté par zerkman (site web personnel) . Évalué à 2.
le besoin à la base est de stocker des documents de façon pérenne, xhtml permet cela. Après on peut discuter de la lisibilité du truc, mais c'est plus fait pour être lu par un ordinateur que par un humain. On peut toujours le convertir en autre chose pour le rendre plus lisible.
[^] # Re: candidat
Posté par fravashyo . Évalué à 1.
ce n'est pas vraiment ce qui est dit :
il ne parle pas de stockage, mais de la structure, en vue de convertir dans d'autres formats.
Et xhtml n'est pas prévu pour être converti vers du LaTeX par exemple.
« I approve of any development that makes it more difficult for governments and criminals to monopolize the use of force. » Eric Raymond
[^] # Re: candidat
Posté par freem . Évalué à 2.
Sauf que pour être sûr que le document soit valide, il faut 2 passes… d'autres formats sont bien plus efficaces et rapides selon mes impressions, comme YAML.
Lisible par l'homme et la machine, rapide à parser, moins volumineux… c'est un peu comme pour les clavier, le 1er sorti à gagné, peu importe les améliorations technologiques qui suivent.
Ca peut se comprendre: compatibilité descendante. Mais que tout le monde continue d'encenser XML, je crois que je mettrais longtemps à comprendre pourquoi. (Oui, XML, parce que XHTML est juste une spécialisation de XML)
Enfin, c'est comme ça…
[^] # Re: candidat
Posté par muchos (site web personnel) . Évalué à 1.
À ce propos, l'usage de plus en plus courant de (x)html (au détriment du wikitexte) par les utilisateurs sur les projets wikimedia peut-il être problématique à terme (conversion par ex.) ?
Debug the Web together.
# Commentaire supprimé
Posté par Anonyme . Évalué à 1. Dernière modification le 27 décembre 2012 à 12:53.
Ce commentaire a été supprimé par l’équipe de modération.
[^] # Re: apéritif de parser
Posté par fravashyo . Évalué à 2.
de markup, car markdown est encore un autre langage du même style.
par contre tu as raison, il est possible, et même plutôt aisé, de reparser la source documents de wikipedia ou autres, pour les convertir dans un autre système, ce que semble proposer d'ailleurs l'auteur de ce journal.
« I approve of any development that makes it more difficult for governments and criminals to monopolize the use of force. » Eric Raymond
[^] # Re: apéritif de parser
Posté par lordblackfox . Évalué à 3. Dernière modification le 27 décembre 2012 à 13:16.
Ça dépend des documents. Genre pour Proudhon (celui dont à la base j'avais besoin):
Du coup ça aide pas vraiment.
Par contre si c'est juste parce que le bouquin inclus n'a pas été retravaillé, je pourrai ptet plutôt le faire pour utiliser le markup de wikisources
[^] # Commentaire supprimé
Posté par Anonyme . Évalué à 1.
Ce commentaire a été supprimé par l’équipe de modération.
[^] # Re: apéritif de parser
Posté par lordblackfox . Évalué à 1.
le texte est extrait (un querySelector sur le bon élément), tout ce qui n'en fait pas partie est balancé
[^] # Commentaire supprimé
Posté par Anonyme . Évalué à 1.
Ce commentaire a été supprimé par l’équipe de modération.
[^] # Re: apéritif de parser
Posté par psychoslave__ (site web personnel) . Évalué à 3.
D’autant que le travail de mise en forme, bien que partagé sous licence libre, est soumis au droit d’auteur. Il est donc légalement obligatoire de citer au moins la source permettant de retrouver les auteurs pour respecter la licence.
[^] # Re: apéritif de parser
Posté par freem . Évalué à 1.
En plus du côté légal, qui semble être la seule règle présente de nos jours, à mon grand dam, il s'agit aussi… d'une question de respect, l'une des choses qui font qu'une société peut fonctionner sans (trop de) haine.
Développeur d'un logiciel libre, que quelqu'un distribue un binaire ne me dérange pas, cependant j'apprécierais un p'tit message dans mon mail accompagné d'un lien vers mon projet, vous voyez ce que je veux dire. Politesse, respect, … rien de légal, certes, mais tout du savoir-vivre.
Je ne vois pas pourquoi le monde logiciel devrait se passer de ces notions éculées. (non non pas enculée, éculées! Je ne parle pas de mouches, que diable!)
[^] # Re: apéritif de parser
Posté par psychoslave__ (site web personnel) . Évalué à 3.
Pour ceux qui ne connaissent pas la syntaxe mediawiki, ici on a utilisation de genre de macros, on pourrait avoir le même genre « d’horreur » à priori en latex (avec un syntaxe encore plus imbitable cela dit pour la création des macros).
Sur wikisource il faut ajouter qu’il y a la spécificité de tenter de coller à une mise en page d’une édition imprimée donnée tout en l’adaptant à un format web. Les documents sont donc souvent transcrit à partir de numérisation en format déjàvu, avec un système permettant de corriger l’OCR dans la syntaxe wiki en vis à vis de chaque page, exemple avec le cas du texte dont tu parles.
Ceci permet également de générer les fichiers epub correspondants à une édition, à partir de http://wsexport.wmflabs.org/tool/book.php
Disposer d’un outil qui facilite la conversion en pdf via tex, ça pourrait être intéressant effectivement d’un point de vu qualité de la mise en page, cela étant je vois pas du tout l’intérêt d’un point de vu pérennité des données.
# Outil dédié ?
Posté par ckyl . Évalué à 2.
Pourquoi faire son petit outil dans son coin et ne pas contribuer à des projets qui essaient de permettre la traduction des différents formats texte ? Pandoc me vient à l'esprit par exemple.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.