Faire un don ! | | style | statistiques | contactez-nous | plan | lettre d'information

: La BnF s'oriente vers le logiciel libre

Posté par Thierry Stoehr (). Modéré le 18 novembre 2007.
Le 13 novembre 2007, Bruno Racine, président de la Bibliothèque nationale de France (BnF) depuis le 2 avril, a donné une conférence de presse intitulée « Trois chantiers d'avenir » qui portait sur « le numérique, le projet Richelieu, le développement durable ».

La première partie à propos de « La BnF à l'ère du numérique » annonce un projet dénommé SPAR (Système de Préservation et d'Archivage Réparti) pour « entreposer de manière sécurisée et pérenne les objets numériques ». Pour ce « projet de grande ampleur » SPAR, on lit dans le dossier de presse que « la BnF a lancé le 14 juin dernier un appel d'offres pour la réalisation de la partie logicielle et a adopté une orientation en faveur du logiciel libre afin de s'assurer une indépendance maximale ».

SPAR est un « véritable magasin numérique » et « sera opérationnel dès le début 2009 » : un projet à souligner et à suivre. (Il est aussi question d'archivage électronique, de patrimoine numérique, de numérisation et de bibliothèques numériques dans ce premier des trois chantiers.)

> Lire la dépêche (33 commentaires, moyenne: 4,3).  

Vous avez demandé le commentaire #883406.

Politique culturelle et accès au domaine public : pour quoi militer

Posté par herodiade () le 19/11/2007 à 13:13. (lien). Évalué à 10.

Reste à savoir ce qui sera numérisé en priorité (les ½uvres les plus plébiscitées le seront-elles ?), sous quelles conditions l'accès, et la rediffusion de ces ½uvres sera-t-il permis (ou facilité), si la BnF permettra un accès ouvert à ses concurrents (Google, Yahoo, MS) en utilisant les standards du web, si logiciel d'OCR utilisé sera libre, etc. Il est aussi question dans le dossier de presse indiqué dans la dépêche de mettre en ligne, mais de façon restreinte et approuvée par le SNE, les documents encore protégés par le droit patrimonial ; les technologies ne sont pas indiquées, la possibilité de DRM n'est pas exclue.

Les licences d'exploitation abusives, comme le choix de ne pas diffuser numériquement les « bijoux de famille » lorsqu'ils relèvent du domaine publique, et d'en vendre l'accès contre rémunération est une pratique courante chez les conservateurs du patrimoine en France, bibliothèques comme musées. Les maisons d'éditions, qui ne peuvent pas risquer de se voir couper les accès ultérieurs aux ½uvres conservées, jouent le jeu et payent la rançon indue. Concernant la numérisation, il est probable que la BnF cherche à compliquer les copies hors site des ½uvres numérisées (par exemple, mais pas seulement, pour pouvoir se financer avec des encarts publicitaires).

Vous êtes-vous déjà demandé, par exemple, pourquoi on ne peut pas trouver sur internet (par ex. sur flickr ou commons.wikipedia.org) l'intégralité - ou au moins une partie significative - du patrimoine conservé par le Musée du Louvre ? La mission première d'un musée est de donner le plus large accès possible à la culture, bien entendu. Mais l'accès aux ½uvres les plus populaires comme la Joconde dans des conditions permettant de bonnes photographies est soigneusement contrôlé par le Louvre (contre rémunération, et sous condition de diffusion restreinte seulement) : le règlement intérieur interdit la photographie de ces ½uvres (en pratique, les gardiens vous laissent faire si vous êtes dans un groupe de touristes, avec un angle pourri permettant seulement une photo-souvenir, mais vous ne parviendrez pas à poser un pied sous l'appareil photo). De même que la photographie des documents, même numérique et sans flash, est strictement interdite à la BnF.

Une des racines du problème (sinon la racine du problème) relève d'un choix de politique_culturelle de l'État, et de la seconde mission des musées et bibliothèques (après la mission de diffusion) : la conservation du patrimoine. Cette conservation coûte cher, et il est de plus en plus souvent demandé aux institutions de la financer en partie sur leurs fonds propres (plutôt qu'uniquement sur des fonds publics). Aussi nous (acteurs du libre et enthousiastes du domaine public) devons êtres vigilants quant aux décisions relevant de la politique culturelle, si nous voulons attaquer le mal à la racine.

Notez que ces problématiques sont concomitantes de l'ère numérique : le domaine public (plus précisément, l'expiration du droit patrimonial) était une disposition légale souvent très théorique, pour ainsi dire virtuelle, et presque inexploitable avant internet (le grand public ne pouvait pas vraiment en tirer profit, la diffusion restait sous contrôle des conservateurs du patrimoine, qui ont alors pris cette habitude d'en faire payer l'accès aux éditeurs de contenu professionnels, lesquels ne pouvaient pas se permettre de bruler les ponts).

Voyez ce superbe article sur le sujet d'André Gunthert, chercheur à EHESS et membre de la Société française de photographie (institution qui conserve une grande quantité d'½uvres du domaine public), exposant le contexte, les enjeux et les risques à venir à partir d'un cas ou Wikipédia est (un brin maladroitement) impliquée : [http://www.arhv.lhivic.org/index.php/2006/08/25/209-daguerre(...)]

Le nouveau site de Gallica permettant de consulter une partie des ½uvres fraîchement numérisées est déjà accessible [http://gallica2.bnf.fr/]. Mais Gallica a décidé de ne pas faire de relecture/correction après l'OCR, ce qui donne un résultat assez peu probant sur les ½uvres les plus anciennes. Essayez par exemple ceci [http://gallica2.bnf.fr/ark:/12148/bpt6k814390] (choisissez « Display: text mode » pour avoir l'affichage post-OCR). Ils ont aussi choisi un mode d'affichage dynamique des contenus numérisés qui permet de compliquer l'indexation par leurs concurrents, Google, Yahoo et MS (comme pour Europeana semble-t-il : [http://www.europeana.eu/]). S'agissant de libérer les outils, espérons qu'ils ne feront pas le choix d'un OCR propriétaire. Espérons qu'en dépit de leur amère acrimonie envers Google, ils choisiront de participer au développement du plus prometteurs des OCR libres (Tesseract & co) où Google investit beaucoup : contribuer à ces outils serait un investissement public profitable à tous, y compris aux bénévoles de Wikisources et Gutenberg (et aux rippeurs de sous-titres ;). Je n'ai pas trouvé d'indication sur le sujet dans les documents sur SPAR liés par la dépêche.

À ce sujet, la position très fermée et très anti-google (quand ce n'est pas « anti internet ») de la BnF (Jean-Noël Jeanneney, directeur de la BnF jusqu'en avril 2007, a publié plusieurs pamphlets élitistes contre google et l'accès élargit non-hiérarchisé à la culture) est contestée depuis longtemps. Cette tribune du spécialiste de la numérisation des bibliothèque (et physicien) Alexandre Moatti a été publiée dans Le Monde (au passage, ce journal a caviardé sans prévenir l'auteur une phrase disant du bien de Wikipédia, ce qui nous rappellera à point nommé la position ambigüe des médias généralistes quant à la culture libre...) : [http://bibnum.over-blog.com/article-12513869.html]

Pendant que j'y suis, peut-être un peu hors sujet (quoique...), je vous recommande cet autre article du chercheur indiqué plus haut, André Gunthert, intitulé Le daguerréotype, première expérience open source : [http://www.arhv.lhivic.org/index.php/2006/12/15/274-le-dague(...)].

  • [^]Re: Politique culturelle et accès au domaine public : pour quoi militer

    Posté par Pierre Jarillon (page perso, ) le 19/11/2007 à 14:17. (lien). Évalué à 5.

    Excellente contribution, merci.
    Je viens d'essayer le mode texte après OCR ... C'est catastrophique. Je pense que la solution serait d'ouvrir un wiki pour chacune des pages traitées par OCR puis, quand la page serait marquée "terminée", la verrouiller pour que les éventuelles erreurs qui auraient pu passer à travers mailles passent par un modérateur.
    Cette solution est sans doute trop moderne pour cette vielle institution. Faudra-t-il attendre encore 10 ans ? Espérons que non.

    • [^]Re: Politique culturelle et accès au domaine public : pour quoi militer

      Posté par Pierre Jarillon (page perso, ) le 19/11/2007 à 14:32. (lien). Évalué à 2.

      Le mode OCR a des limites, une page comme http://www.europeana.eu/ark:/12148/bpt6k2049479.f5# ou la suivante n'est pas du tout interprétée par le système OCR. Il est écrit que c'est pour les déficients visuels... Certes, c'est mieux que rien, mais dans bien des cas, le résultat est inexploitable. La correction en mode wiki me semble être une bonne voie, en attendant la mise au format docbook !

      • [^]Re: Politique culturelle et accès au domaine public : pour quoi militer

        Posté par herodiade () le 19/11/2007 à 15:32. (lien). Évalué à 7.

        > La correction en mode wiki me semble être une bonne voie

        Tout à fait d'accord, mais je crois que c'est sans espoir, du moins si l'on attend que ça vienne des décisionnaires institutionnels. Il y a une très forte culture du contrôle top down (disons, un élitisme déplacé, et une très faible confiance à l'égard du bas peuple travail communautaire), dans le milieu (à ce sujet, avez vous déjà essayé de visiter la BnF ?). Et des responsabilités institutionnelles qui rendraient l'opération délicate. Le contrôle des corrections a posteriori est très difficile (ou plutôt, il rends la tache vaine, car contrôler serait probablement aussi coûteux que de corriger directement).

        Lisez ce que Jean-Noël Jeanneney (ex-directeur de la BnF, et à l'initiative des décisions actuellement mises en oeuvre) dit de Wikipédia ([http://www.lepoint.fr/content/societe/article?id=189153], en bas de l'article) : « Wikipédia n'est pas réellement en mesure de filtrer à coup sûr les erreurs. », « besoin d'un comité de lecture qui fasse autorité », « utopie de la gratuité », etc. Bien sûr, l'avenir le contredira (de même que la BnF a dû partiellement céder sur l'accès gratuit et la numérisation, malgré qu'ils en aient) ; mais dans moins de 10 ans ? je n'y crois pas.

        Une solution alternative, qui sera sans doute mise en ½uvre (reste à savoir si ce sera à grande échelle), consistera à court-circuiter leur processus décisionnel et leur site web : il y aura certainement des personnes pour développer des outils permettant d'aspirer les scans sur Gallica2/Europeana, de les traiter numériquement, et de les pousser dans Wikisource ou Commons, où les corrections et les responsabilités sont gérées par la communauté (en fait, ça se fait déjà en aspirant le contenu du Gallica actuel et le convertissant au format ouvert intermédiaire DjVu, cf. [http://fr.wikisource.org/wiki/Aide:Cr%C3%A9er_un_fichier_DjV(...)]). Le fait qu'ils fuient l'indexation par Google fera que Wikisource sera mieux référencé, et attirera préférentiellement les contributeurs, de toutes façons. Bref, il faut vraiment tout faire nous même dans ce pays ;).

        Nous avons surtout besoin d'outils d'OCR et de preprocessing libres et performants.

        • [^]Re: Politique culturelle et accès au domaine public : pour quoi militer

          Posté par zero heure (Jabber id, page perso, ) le 19/11/2007 à 19:33. (lien). Évalué à 5.

          Lisez ce que Jean-Noël Jeanneney (ex-directeur de la BnF, et à l'initiative des décisions actuellement mises en oeuvre) dit de Wikipédia ([http://www.lepoint.fr/content/societe/article?id=189153], en bas de l'article) : « Wikipédia n'est pas réellement en mesure de filtrer à coup sûr les erreurs. », « besoin d'un comité de lecture qui fasse autorité », « utopie de la gratuité », etc.


          Je ne sais pas ce qui me choque le plus: cette vision élitaire du savoir - doublée de mépris - ou cette hypocrisie de sous-entendre qu'une encyclopédie papier est impartiale ou plus juste ou dénuée d'erreur: la maison d'édition dont elle dépend sait toujours où sont ses intérêts.

          --
          J'ai vu bien des choses dans ma petite vie, et je mesure amèrement l'impuissance à les dire. (JP Rosnay, Le 13ème apôtre) http://www.poesie.net/apotre2.htm

          [^]Re: Politique culturelle et accès au domaine public : pour quoi militer

          Posté par dark_star () le 20/11/2007 à 08:27. (lien). Évalué à 2.

          Bref, il faut vraiment tout faire nous même dans ce pays ;)

          tu ne crois pas si bien dire :), il y a le projet gutenberg, qui OCRise les livres pour les livrer au format txt, mais ne mets pas a disposition les images du livre.

          j'ai moi meme scanné 3 livres pour les mettre a disposition sur internet, par contre le format un peu trop libre est peu etre mal adapté a une large diffusion malgré la performance de ce format (djvu). par contre vu le boulot pour OCRiser j'attend d'avoir un outil performant.

          somme nous condamné a acheter des livres puis les numeriser puis les OCRiser et mettre tous cela a disposition ? comme l'idée emise plus bas ? moi je suis plutot pour mais cela risque d'avancer doucement.

    [^]Re: Politique culturelle et accès au domaine public : pour quoi militer

    Posté par folliked () le 19/11/2007 à 14:20. (lien). Évalué à 5.

    pour le projet de numérisation de la BNF ... c'est ABBYY qui est utilisé comme OCR ... y'a aussi du Microsoft pour le développement des outils ...

    comme j'ai dit plus haut ... le projet de la BNF pour la numérisation des livres c'est 100% proprio

    • [^]Re: Politique culturelle et accès au domaine public : pour quoi militer

      Posté par Hal9000 () le 19/11/2007 à 18:25. (lien). Évalué à 6.

      J'ai travaillé à l'évaluation de différent logiciels d'OCR (pour une boite privée, rien a voir avec la BNF).
      Les logiciels libres n'arrivent pas à la cheville de Finereader (ABBYY). C'est dommage mais c'est un fait.

      Je connais bien le domaine, et je crois que l'idée "on embauche quelques types pour améliorer un logiciel libre, tout le monde profitera des améliorations" n'est pas très réaliste ici. Le travail de R&D derrière FineReader est colossal, l'espoir de les rattraper rapidement me semble irréaliste.

      Et la, c'est le résultat qui compte. L'outil n'a pas tellement d'importance. Le prosélitisme a ses limites.

    [^]Re: Politique culturelle et accès au domaine public : pour quoi militer

    Posté par folliked () le 19/11/2007 à 14:44. (lien). Évalué à 0.

    pour le projet de numérisation de la BNF ... c'est ABBYY qui est utilisé comme OCR ... y'a aussi du Microsoft pour le développement des outils ...

    comme j'ai dit plus haut ... le projet de la BNF pour la numérisation des livres c'est 100% proprio

    [^]Re: Politique culturelle et accès au domaine public : pour quoi militer

    Posté par baud123 (Jabber id, page perso, ) le 19/11/2007 à 16:59. (lien). Évalué à 3.

    ses concurrents (Google, Yahoo, MS)

    ah tiens, j'aurais plutôt pensé Hachette, Lafont, Hersant...
    le choix d'une licence libre permettrait de faire rayonner le français et connaître notre littérature au plus grand nombre, n'est-ce-pas une ouverture franche et concrète qui serait possible ?

    N'était-ce pas Bill Gates qui s'était proposé d'acheter les droits exclusifs de reproduction d'images d'oeuvres du Louvre, ce qui avait fini par faire un tollé et tomber à l'eau ce projet ?

    Le choix d'une licence libre permettant de conserver les travaux dérivés (traduction par exemple) sous la même licence serait peut-être opportun aussi (même si je ne le pense pas : autant garder cela dans le domaine public : cela n'empêche pas de citer l'auteur, un travail dérivé sans citer l'auteur serait sans doute considéré comme un plagiat ? ou en tout cas identifié comme tel assez rapidement àmha).

    • [^]Re: Politique culturelle et accès au domaine public : pour quoi militer

      Posté par Antoine () le 19/11/2007 à 17:34. (lien). Évalué à 2.

      cela n'empêche pas de citer l'auteur, un travail dérivé sans citer l'auteur serait sans doute considéré comme un plagiat ?

      Au minimum ce serait contraire au droit moral.

      [^]Re: Politique culturelle et accès au domaine public : pour quoi militer

      Posté par herodiade () le 19/11/2007 à 18:38. (lien). Évalué à 3.

      >> ses concurrents (Google, Yahoo, MS)
      > ah tiens, j'aurais plutôt pensé Hachette, Lafont, Hersant...

      Lorsque j'écrit que Google, Yahoo et MS sont leurs concurrents, je raporte simplement la position publiquement affichée des décideurs et dirigeants de la BnF. Depuis l'annonce de Google Print, la direction de la BnF a toujours considéré les moteurs de recherche « américains » comme des compétiteurs, et des menaces pour la culture française. Aussi on-t-ils refusé à Google la possibilité de numériser les ouvrages de la BnF.

      Pourtant, le fait que Google Print (avec un budget annoncé de +150 M$) ou Microsoft numérisent parallèlement à leur propres projets (Gallica, budget 100% public, de seulement 3.5 M$) ne devrait rien leur enlever, n'est-ce-pas ?

      > le choix d'une licence libre permettrait de faire rayonner le français et connaître notre littérature au plus grand nombre

      C'est tout à fait ça. Mais la perception chez nos dirigeants est bien différente. Jeanneney voit dans les projets américains une « volonté hégémonique d'imposer une culture anglo-saxonne » (sic, cf. [http://www2.cnrs.fr/presse/journal/2404.htm]). Pour lui le contenu n'est rien sans l'index de qualité (comprendre : qui hiérarchise l'information), d'où ces tentatives pour garder un contrôle franco-français (même dans les projets européens) sur l'ensemble et pour barrer la route aux moteurs de recherche (et leurs indexes diaboliques et américains). Si vous avez accès aux archives (payantes...) du Monde, cet article sur ce point a fait grand bruit à l'époque : http://www.lemonde.fr/cgi-bin/ACHATS/acheter.cgi?offre=ARCHI(...)

      L'ex-président de la BnF a même publié un livre sur ce ton : [http://www.press.uchicago.edu/cgi-bin/hfs.cgi/00/216412.ctl]. Bien entendu, les petits rois des médias papiers applaudissent des deux mains : [http://passouline.blog.lemonde.fr/livres/2005/04/jeanneneygo(...)].

      Ce qui permet surtout aux médias étrangers de se moquer de la France, à juste titre [http://www.telegraph.co.uk/arts/main.jhtml?xml=/arts/2007/01(...)]. Comme les wikipédiens français d'ailleurs : [http://referencenecessaire.wordpress.com/2007/06/22/jean-noe(...)], qui habilement rapproche les coûteux et castafioresques délires des élites de la BnF avec ceux ayant conduit au projet Géoportail ([http://www.geoportail.fr/], avec le succès planétaire qu'on lui connait - il suffisait pourtant de libérer les données). C'est pourquoi j'indiquais le texte d'Alexandre Moatti paru dans le Monde (cf. plus haut).