TLDR :
www.pgdp.net prépare les livres électroniques pour www.gutenberg.org, c'est facile d'y contribuer : c'est un travail qui se fait page par page, donc dès qu'on a 4 minutes à perdre devant un PC, on peut s'y mettre.
Attention : j'ai mis libre dans le titre pour attirer le chaland, domaine public aurait été plus approprié.
Je vais vous parler de du projet Gutenberg (www.gutenberg.org) et plus particulièrement du projet distributed proofreader (www.pgdp.net) qui fournit le premier.
Le projet Gutenberg met à disposition des livres du domaine public, c'est pratique pour lire sur une liseuse. Mais comment obtient-on un epub à partir d'un livre imprimé au XVIIIe siècle ? C'est à ça que pgdp sert: le projet s'occupe de la création de ces fichiers.
- D'abord, le livre est scanné
- Un OCR converti l'image en texte lisible
- Des lecteurs comparent l'image au texte et corrigent ce dernier si besoin
- Des formateurs mettent en forme le texte
- Les fichiers finaux sont créés (txt, epub, html…)
- Les fichiers sont alors distribués sur gutenberg
Pourquoi c'est bien :
Le gros du travail consiste en de la relecture, pour un livre entier, c'est long, mais pour une page, c'est assez rapide, rien à voir avec des projets de logiciels libres où on peut se noyer dans une mailing-list en moins d'une semaine.
Les livres en relecture sont assez variés, on en trouve pour tous les gouts (attention, c'est que des vieux bouquins quand même) et en pas mal de langues.
Le travail de relecture se fait en ligne, à travers un logiciel assez daté (années 2000) mais léger et facile à prendre en main.
Donc, si comme moi :
- Vous aimez lire des vieux trucs,
- Vous n'avez pas beaucoup de temps,
- Vous voulez quand même contribuer à un projet qu'il est chouette,
www.pgdp.net peut vous intéresser.
Note :
À part le fait d'y être inscrit, je n'ai aucun lien avec le projet, c'est juste que j'aurai bien voulu me rendre compte de son existence plus tôt.
Attention : le domaine public en question est celui des États-Unis qui n'est pas exactement le même que le français (par exemple, là-bas il n'y a pas la prorogation de guerre ce qui fait que Le Grand Meaulnes ou La Guerre des boutons ont été accessibles plus tôt outre Atlantique qu'ici.)
# Quel logiciel d'OCR ?
Posté par davandg . Évalué à 2.
Quel logiciel d'OCR est utilisé ? Je n'ai pas trouvé l'info sur le site…
[^] # Re: Quel logiciel d'OCR ?
Posté par purplepsycho . Évalué à 5.
ABBYY FineReader -> http://www.pgdp.net/c/faq/cp.php#software
Voir aussi : http://www.pgdp.net/c/faq/scanning.php#12
[^] # Re: Quel logiciel d'OCR ?
Posté par Mimoza . Évalué à 2.
Mouai j'ai l'impression que leurs pages ne sont pas tout a fait à jour.
Ils recommandent Clara OCR mais le lien qu'ils donne envoi sur une page blanche et le domaine à l'air abandonné.
Aujourd'hui les OCR libre ont quand même pas mal évolué et Tesserac est plutôt pas mal. Donc bon ne pas prendre pour argent comptant ce qu'il y a d'écrit.
# Wikisource
Posté par Bernez . Évalué à 3.
À en croire la description, ce projet est en concurrence frontale avec Wikisource. Pourquoi avoir fait un projet séparé ?
[^] # Re: Wikisource
Posté par Colargol . Évalué à 3.
Le projet Gutemberg est le plus ancien (1971 !), la principale différence est la licence, Wikisource n'acceptant que les contributions en cc-by-sa-3.0.
[^] # Re: Wikisource
Posté par zonder . Évalué à 3.
Et quelle est la licence pour pgdp?
[^] # Re: Wikisource
Posté par Bernez . Évalué à 2.
Ça ne dit pas l'ancienneté du projet pgdp.
Quoiqu'il en soit, Wikisource me semble disposer d'une communauté plus importante – dont une communauté spécifiquement francophone –, de l'appui de fondation Wikimedia, et d'une solide base technique (moteur wiki Mediawiki, tout un tas de modèles, etc). Je m'inquiète juste de la dispersion des forces, à moins que pgdp ait effectivement des avantages, ce qui est ma question.
[^] # Re: Wikisource
Posté par Guillaume Smet (site web personnel) . Évalué à 4.
PGDP date de 2000, je me rappelle avoir participé en 2001-2002.
Ca date même d'avant Wikipedia, et donc bien avant Wikisource.
Ca ne règle pas le problème de la dispersion des forces mais on ne peut pas vraiment leur reprocher d'avoir réinventé la roue vu que c'était largement le premier projet de grande ampleur de ce type.
# Ponctuation
Posté par Bisaloo . Évalué à 5.
Quelqu'un pourrait m'expliquer ça ? On est pas censés mettre des espèces en français ?
[^] # Re: Ponctuation
Posté par Benoît Sibaud (site web personnel) . Évalué à 4.
Hypothèse basée sur https://fr.wikipedia.org/wiki/Espace_%28typographie%29#Typographie_informatique : les variantes typographiques dans la Francophonie et/ou l'ajout automatique fait par la suite
« Les différentes régions de la francophonie n'y ont pas remédié de la même manière :
[^] # Re: Ponctuation
Posté par foobarbazz . Évalué à 0.
Et l'idée de les enlever tous c'est que c'est plus facile de trouver où il faut les mettre (ou pas) pour l'adapter au français de France par exemple, que de les enlever automatique (parce qu'ils peuvent n'être que des aberrations) ?
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.