Journal pgdp.net: Contribuer à des projets libres quand on a pas le temps

Posté par . Licence CC by-sa
30
7
juin
2016

TLDR :

www.pgdp.net prépare les livres électroniques pour www.gutenberg.org, c'est facile d'y contribuer : c'est un travail qui se fait page par page, donc dès qu'on a 4 minutes à perdre devant un PC, on peut s'y mettre.

Attention : j'ai mis libre dans le titre pour attirer le chaland, domaine public aurait été plus approprié.

Je vais vous parler de du projet Gutenberg (www.gutenberg.org) et plus particulièrement du projet distributed proofreader (www.pgdp.net) qui fournit le premier.

Le projet Gutenberg met à disposition des livres du domaine public, c'est pratique pour lire sur une liseuse. Mais comment obtient-on un epub à partir d'un livre imprimé au XVIIIe siècle ? C'est à ça que pgdp sert: le projet s'occupe de la création de ces fichiers.

Comment ça se passe ?

  • D'abord, le livre est scanné
  • Un OCR converti l'image en texte lisible
  • Des lecteurs comparent l'image au texte et corrigent ce dernier si besoin
  • Des formateurs mettent en forme le texte
  • Les fichiers finaux sont créés (txt, epub, html…)
  • Les fichiers sont alors distribués sur gutenberg

Pourquoi c'est bien :

Le gros du travail consiste en de la relecture, pour un livre entier, c'est long, mais pour une page, c'est assez rapide, rien à voir avec des projets de logiciels libres où on peut se noyer dans une mailing-list en moins d'une semaine.

Les livres en relecture sont assez variés, on en trouve pour tous les gouts (attention, c'est que des vieux bouquins quand même) et en pas mal de langues.

Le travail de relecture se fait en ligne, à travers un logiciel assez daté (années 2000) mais léger et facile à prendre en main.

Donc, si comme moi :

  • Vous aimez lire des vieux trucs,
  • Vous n'avez pas beaucoup de temps,
  • Vous voulez quand même contribuer à un projet qu'il est chouette,

www.pgdp.net peut vous intéresser.

Note :
À part le fait d'y être inscrit, je n'ai aucun lien avec le projet, c'est juste que j'aurai bien voulu me rendre compte de son existence plus tôt.

Attention : le domaine public en question est celui des États-Unis qui n'est pas exactement le même que le français (par exemple, là-bas il n'y a pas la prorogation de guerre ce qui fait que Le Grand Meaulnes ou La Guerre des boutons ont été accessibles plus tôt outre Atlantique qu'ici.)

  • # Quel logiciel d'OCR ?

    Posté par . Évalué à 2.

    Quel logiciel d'OCR est utilisé ? Je n'ai pas trouvé l'info sur le site…

  • # Wikisource

    Posté par . Évalué à 3.

    À en croire la description, ce projet est en concurrence frontale avec Wikisource. Pourquoi avoir fait un projet séparé ?

    • [^] # Re: Wikisource

      Posté par . Évalué à 3.

      Le projet Gutemberg est le plus ancien (1971 !), la principale différence est la licence, Wikisource n'acceptant que les contributions en cc-by-sa-3.0.

      • [^] # Re: Wikisource

        Posté par . Évalué à 3.

        Et quelle est la licence pour pgdp?

      • [^] # Re: Wikisource

        Posté par . Évalué à 2.

        Le projet Gutemberg est le plus ancien (1971 !)

        Ça ne dit pas l'ancienneté du projet pgdp.

        Quoiqu'il en soit, Wikisource me semble disposer d'une communauté plus importante – dont une communauté spécifiquement francophone –, de l'appui de fondation Wikimedia, et d'une solide base technique (moteur wiki Mediawiki, tout un tas de modèles, etc). Je m'inquiète juste de la dispersion des forces, à moins que pgdp ait effectivement des avantages, ce qui est ma question.

        • [^] # Re: Wikisource

          Posté par (page perso) . Évalué à 4.

          PGDP date de 2000, je me rappelle avoir participé en 2001-2002.

          Ca date même d'avant Wikipedia, et donc bien avant Wikisource.

          Ca ne règle pas le problème de la dispersion des forces mais on ne peut pas vraiment leur reprocher d'avoir réinventé la roue vu que c'était largement le premier projet de grande ampleur de ce type.

  • # Ponctuation

    Posté par . Évalué à 5.

    screenshot_rules

    Quelqu'un pourrait m'expliquer ça ? On est pas censés mettre des espèces en français ?

    • [^] # Re: Ponctuation

      Posté par (page perso) . Évalué à 4.

      Hypothèse basée sur https://fr.wikipedia.org/wiki/Espace_%28typographie%29#Typographie_informatique : les variantes typographiques dans la Francophonie et/ou l'ajout automatique fait par la suite

      « Les différentes régions de la francophonie n'y ont pas remédié de la même manière :

      • au Québec et même ailleurs au Canada français, on recommande plutôt de ne pas mettre d’espace du tout (excepté devant les deux-points, où l’espace insécable est obligatoire). (…)
      • en Europe, on remplace l’espace fine par une espace. (…) »
      • [^] # Re: Ponctuation

        Posté par . Évalué à 0.

        Et l'idée de les enlever tous c'est que c'est plus facile de trouver où il faut les mettre (ou pas) pour l'adapter au français de France par exemple, que de les enlever automatique (parce qu'ils peuvent n'être que des aberrations) ?

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.