La BnF s'oriente vers le logiciel libre

Posté par  . Modéré par Jaimé Ragnagna.
Étiquettes :
1
18
nov.
2007
Technologie
Le 13 novembre 2007, Bruno Racine, président de la Bibliothèque nationale de France (BnF) depuis le 2 avril, a donné une conférence de presse intitulée « Trois chantiers d'avenir » qui portait sur « le numérique, le projet Richelieu, le développement durable ».

La première partie à propos de « La BnF à l'ère du numérique » annonce un projet dénommé SPAR (Système de Préservation et d'Archivage Réparti) pour « entreposer de manière sécurisée et pérenne les objets numériques ». Pour ce « projet de grande ampleur » SPAR, on lit dans le dossier de presse que « la BnF a lancé le 14 juin dernier un appel d'offres pour la réalisation de la partie logicielle et a adopté une orientation en faveur du logiciel libre afin de s'assurer une indépendance maximale ».

SPAR est un « véritable magasin numérique » et « sera opérationnel dès le début 2009 » : un projet à souligner et à suivre. (Il est aussi question d'archivage électronique, de patrimoine numérique, de numérisation et de bibliothèques numériques dans ce premier des trois chantiers.)

Aller plus loin

  • # bien

    Posté par  . Évalué à 9.

    bon c'est pas mal mais c'est trés trés en retard. un peu comme la numerisation des livres.

    il y a un billet trés intérréssant sur le sujet de la numerisation des livres de la bnf par volle:

    http://www.volle.com/opinion/bnf2.htm

    mais l'idée principale (pour ceux qui ne veulent pas cliquer)

    Pour les gens de la BNF, le Livre était un objet sacré. Pour pouvoir le toucher, le lecteur devait entrer dans la Bibliothèque, s’agenouiller symboliquement devant le Bibliothécaire et obéir à la liturgie maison : remplissage de la fiche, attente, enfin remise délicate de l'ouvrage pour un court délai. L’accès à distance, sans cérémonial, était une proposition hérétique qu'il convenait d'accueillir par un regard absent suivi d’un rappel à l’ordre du jour.


    mais bon mieux vaut tard que jamais
    • [^] # Re: bien

      Posté par  (site web personnel) . Évalué à 7.

      Il parait que Attali avait expliqué à Mitterrand que l'avenir n'était pas dans un bâtiment mais dans la diffusion des ½uvres numériques. Mais dans sa mégalomanie, ce président rêvait de refaire la bibliothèque d'Alexandrie !
      Il avait oublié qu'elle avait brûlé. Il raisonnait encore comme un homme du 19ème siècle.

      Le bâtiment de la BNF est un non-sens ; il met en péril les documents originaux et a englouti les ressources qui auraient été nécessaires au rayonnement culturel de la France.

      En gros, nous avons pris 10 ans de retard et cela sera très difficile à rattraper.
      • [^] # Re: bien

        Posté par  . Évalué à 10.

        Oui, mais les livres de la BNF n'étaient-ils pas déjà entreposés dans des bâtiments beaucoup plus vétustes et où ils risquaient encore plus la destruction ?
        • [^] # Re: bien

          Posté par  (site web personnel) . Évalué à 3.

          Le nouveau bâtiment de la BNF n'offre aucun progrès. La solution aurait été de mettre les ouvrages dans des emballages étanches sous atmosphère neutre et de les entreposer dans des tunnels creusés sous le causse après le avoir numérisé.
          Cela aurait eu aussi l'avantage de créer des emplois ailleurs qu'à Paris.
          • [^] # Re: bien

            Posté par  . Évalué à 10.

            La décision de construire la BNF date de 1988, date à laquelle la numérisation en masse, Internet et l'informatique grand public n'existaient pas.
            Il faudrait peut être replacer les choses dans leur contexte au lieu de hurler au manque de modernité.
            A l'époque j'aurais bien aimé voir les chercheurs, étudiants ou autres prendre un billet de train jusqu'à Millau pour aller consulter des ouvrages dans la célèbre bibliothèque du Causse Méjean, à 42km du moindre village de plus de 50 habitants !
            • [^] # Re: bien

              Posté par  . Évalué à 4.

              ok tu n'as pas tord mais permet moi d'insister :

              Vers 1990, le projet architectural de la BNF était en cours. Il s’accompagnait d’un projet de numérisation des livres.


              tu sais cela viens du lien que j'ai posté plus haut

              http://www.volle.com/opinion/bnf2.htm

              et surtout le plan cable date de .... 1982 !
              http://www2.urbanisme.equipement.gouv.fr/cdu/datas/docs/ouvr(...)

              je cite pour toi :

              Il avait pour objectif l'édification progressive de réseaux numériques multiservices à destination des particuliers comme des entreprises. Répondant à un triple enjeu (industriel, culturel et social) ce plan portait la marque des grands projets, dans la ligne du volontarisme à la française.


              sans compter que d'apres wikipedia La nouvelle Bibliothèque nationale de France ouvre au public le 20 décembre 1996

              l'informatique n'existe depuis 1996 non ? cela vas faire 11 ans que le monde evolue vers la société d'information. sauf dans les bibliotheques.
            • [^] # Re: bien

              Posté par  (site web personnel) . Évalué à 2.

              A l'époque j'aurais bien aimé voir les chercheurs, étudiants ou autres prendre un billet de train jusqu'à Millau pour aller consulter des ouvrages dans la célèbre bibliothèque du Causse Méjean, à 42km du moindre village de plus de 50 habitants !

              Justement, l'intérêt est de ne plus manipuler les documents originaux mais de les préserver. De nombreux documents vieux de 200 à 300 ans sont devenus à peine lisibles à force d'être manipulés par des étudiants. Avec une mise à disposition par internet, les étudiants et les chercheurs n'auraient ni à prendre le train ni à aller dans une salle de lecture parisienne. Cette dernière contrainte oblige actuellement les habitants de Millau à prendre le train pour aller à Paris consulter des ouvrages uniques. Paris n'est pas la France et Internet pourrait aider à mettre fin à cette horrible politique jacobine. Vous l'avez compris, je suis girondin !

              Sortir les documents originaux et uniques tous les 50 ans pour être numérisés, vérifiés et éventuellement restaurés me paraît bien plus intelligent que de les laisser être tripotés par des centaines ou des milliers de personnes.

              NB: J'ai pris l'exemple du Causse mais je ne sais pas si il est le meilleur endroit possible !
            • [^] # Re: bien

              Posté par  . Évalué à 2.

              date à laquelle la numérisation en masse, Internet et l'informatique grand public n'existaient pas

              Je ne sais pas ce que tu appelles informatique grand public, mais des millions d'ordinateurs 8 bits et 16 bits ont été vendus dans les années 80.
              Le déclin relatif du début des années 90 est dû à la nullité du PC à l'époque, qui n'offrait rien d'attractif pour un particulier.
  • # Oui mais...

    Posté par  . Évalué à 10.

    Tout cela est en bonne voie mais on oublie la partie importante. Est-ce que les oeuvres numérisées du domaine public vont rester dans le domaine public ou se retrouver dans une nouvelle classe d'oeuvre propriétaire ?

    La BnF utilise toujours cette pratique, cf sur le site http://gallica.bnf.fr/.

    "
    Droits d'auteur

    La Bibliothèque nationale de France est titulaire des droits d'auteur sur le site "Gallica".

    Pour un usage strictement privé, la reproduction du contenu de ce site est libre. Dans le cadre de communication, d'édition ou autres actions à caractère professionnel, ne sont autorisées que les courtes citations sous réserve de la mention BnF/Gallica.

    Tout autre reproduction ou représentation, intégrale ou substantielle du contenu de ce site, par quelque procédé que ce soit, doit faire l'objet d'une autorisation expresse de la BnF.
    "

    Je connais l'argumentaire classique des bibliothèques, c'est pour ce protéger des grands méchants loups. Mais je croyais que le rôle des bibliothèques étaient la préservation et la distribution des oeuvres... pourquoi toujours vouloir déplacer les oeuvres du domaine public dans un domaine propriétaire ? pour essayer de garder un sorte de pouvoir illusoire sur une oeuvre qui doit être libre et s'affranchir de ses vieilles barrières.

    J'espère que la BnF va évoluer dans le bon sens et laisser les oeuvres libres.
    • [^] # Re: Oui mais...

      Posté par  (site web personnel) . Évalué à 3.

      Dans la présentation de Bruno Racine, il est dit que l'accès aux documents du patrimoine devait être libre. Comme on parle aussi d'OCR, on devrait se diriger enfin vers une politique de diffusion correcte.
      • [^] # Re: Oui mais...

        Posté par  . Évalué à 4.

        Lors d'une autre présentation de la BnF, il disait que l'accès à Gallica était libre sans pour autant parler de libre et de conserver les oeuvres dans le domaine public. Au final, les oeuvres du domaine public dans gallica sont devenues des oeuvres propriétaires.

        Que voulez-vous dire par "politique de diffusion correcte" ?

        Une oeuvre du domaine public qui serait "OCRizée" ne serait plus dans le domaine public ? Il me semble que c'est vraiment une question clé.
        • [^] # Re: Oui mais...

          Posté par  (site web personnel) . Évalué à 3.

          Dans sa présentation, en page 8, il est écrit :
          > un modèle mis au point au niveau nation (étude BnF / SNE)
          - portail unique
          - accès gratuit aux ½uvres du patrimoine
          - accès payant aux livres sous droits

          Un peu avant, on peut lire
          Des outils nouveaux pour la numérisation de masse
          > reconnaissance optique de caractères
          > la BnF s’ouvre au web sémantique
          • [^] # Re: Oui mais...

            Posté par  . Évalué à 6.

            "- accès gratuit aux ½uvres du patrimoine"

            Bingo... l'oeuvre du domaine public devient une oeuvre en accès gratuit. Une oeuvre du domaine public doit rester une oeuvre du domaine public.

            et donc on revient au point de départ de Gallica :

            http://gallica.bnf.fr/les_droits.htm

            La BnF remets dans le circuit propriétaire les oeuvres qui étaient dans le domaine publique. J'espère que j'ai mal compris cette présentation et que la BnF a fait un pas plus important vers la préservation du domaine public comparé à Gallica.
    • [^] # Re: Oui mais...

      Posté par  . Évalué à 2.

      je te rassure, les livres qui sont dans le domaine publique seront en accès libre et ceux qui disposent encore de droit d'auteur sont en accès restreint ... (hé oui faut payer ...le droit d'auteur... )... sinon ils n'ont pas trouvé de solutions satisfaisantes qui leur plaisaient pour limiter la copie (héhé)


      Pour plus d'informations, les outils et logiciels qui sont déployés pour Gallica sont 100% propriétaire ... ierk ....
      • [^] # Re: Oui mais...

        Posté par  (site web personnel) . Évalué à 4.

        Le problème soulevé par Clarisse (à très juste titre, amha) est que les oeuvres numérisées par Gallica ne sont pas dans le domaine public. Le produit du travail de Gallica peut être vu comme une oeuvre dérivée de l'original, avec le copyright de Gallica. Peu importe que Gallica mette ces oeuvres en accès gratuit, toutes les autres restrictions s'appliquent et on paye donc de la production de shareware avec notre argent public.

        Dans la musique classique il y a le même genre de problème : les oeuvres de Mozart sont dans le domaine public, mais il n'a pas eu l'idée de les enregistrer et les mettre sur un réseau P2P.
        Les gens qui enregistrent un classique pour le vendre à l'heure actuelle s'approprient son travail et aposent leur copyright pour un siècle et demi (enfin d'ici là ça augmentera ...).

        Un exemple aussi sympathique, c'est la société Disney qui a plagié la plupart des grand classiques des contes dans le domaine public (jusque là il n'y a aucun mal), mais qui serait prête à faire un procès à une école qui jouerai au théâtre une scène de "Le bossu de notre dame" (à ne surtout pas confondre avec "Notre dame de Paris" !).

        Bref, à quand un domaine public copylefté ?

        Adhérer à l'April, ça vous tente ?

        • [^] # Re: Oui mais...

          Posté par  . Évalué à 2.

          > Les gens qui enregistrent un classique pour le vendre à l'heure actuelle s'approprient son travail et aposent leur copyright pour un siècle et demi (enfin d'ici là ça augmentera ...).

          Un demi-siècle, voyons, un demi-siècle :)
          C'est pour le prochaine réforme, le siècle et demi.
          • [^] # Re: Oui mais...

            Posté par  (site web personnel) . Évalué à 2.

            Non, j'ai 24 ans et il me reste peut être 65 ans à vivre. Imaginons que je fork un Mozart : 65 + 70 + les années de guerre (!!!) ça fait au moins 135 ans de restrictions, ce que je trouve abusé pour un plagiat.

            En revanche, je ne sais pas ce qui ce passe lorsque c'est une personne morale qui détient le copyright (est-ce possible en france ?)

            Adhérer à l'April, ça vous tente ?

            • [^] # Re: Oui mais...

              Posté par  . Évalué à 3.

              > En revanche, je ne sais pas ce qui ce passe lorsque c'est une personne morale qui détient le copyright (est-ce possible en france ?)

              Oui, par exemple dans le cinéma, les maisons de production jouissent généralement de l'exploitation. Ça relève de ce qu'on appelle les droits_voisins.

              Comme l'interprétation d'ailleurs (un droit voisin aussi), dont le terme n'est pas décès de l'auteur + 70 ans, mais date de l'enregistrement (ou de la première exposition au publique) + 50 ans. Bref le commentaire grand-parent avait raison.
              • [^] # Re: Oui mais...

                Posté par  (site web personnel) . Évalué à 2.

                Merci pour cette précision.

                > Bref le commentaire grand-parent avait raison.

                Pour ma défense, je pensait clairement à du travail dérivé en écrivant ça, pas à une interprétation. Mais en effet, sous cet angle ça se limite donc à 50 ans.

                Adhérer à l'April, ça vous tente ?

  • # Hum

    Posté par  . Évalué à 9.

     SPAR est un « véritable magasin numérique » 

    C’est mon épicier qui va être surpris : http://www.spar.fr
  • # Scoop

    Posté par  . Évalué à -4.

    J'avais déjà eu l'info grâce à un informateur infiltré à l'école des Chartes. Autre information de premier ordre: le prof d'informatique de cette école est un gros geek présumé qui porte un t-shirt pacman.
  • # Politique culturelle et accès au domaine public : pour quoi militer

    Posté par  . Évalué à 10.

    Reste à savoir ce qui sera numérisé en priorité (les ½uvres les plus plébiscitées le seront-elles ?), sous quelles conditions l'accès, et la rediffusion de ces ½uvres sera-t-il permis (ou facilité), si la BnF permettra un accès ouvert à ses concurrents (Google, Yahoo, MS) en utilisant les standards du web, si logiciel d'OCR utilisé sera libre, etc. Il est aussi question dans le dossier de presse indiqué dans la dépêche de mettre en ligne, mais de façon restreinte et approuvée par le SNE, les documents encore protégés par le droit patrimonial ; les technologies ne sont pas indiquées, la possibilité de DRM n'est pas exclue.

    Les licences d'exploitation abusives, comme le choix de ne pas diffuser numériquement les « bijoux de famille » lorsqu'ils relèvent du domaine publique, et d'en vendre l'accès contre rémunération est une pratique courante chez les conservateurs du patrimoine en France, bibliothèques comme musées. Les maisons d'éditions, qui ne peuvent pas risquer de se voir couper les accès ultérieurs aux ½uvres conservées, jouent le jeu et payent la rançon indue. Concernant la numérisation, il est probable que la BnF cherche à compliquer les copies hors site des ½uvres numérisées (par exemple, mais pas seulement, pour pouvoir se financer avec des encarts publicitaires).

    Vous êtes-vous déjà demandé, par exemple, pourquoi on ne peut pas trouver sur internet (par ex. sur flickr ou commons.wikipedia.org) l'intégralité - ou au moins une partie significative - du patrimoine conservé par le Musée du Louvre ? La mission première d'un musée est de donner le plus large accès possible à la culture, bien entendu. Mais l'accès aux ½uvres les plus populaires comme la Joconde dans des conditions permettant de bonnes photographies est soigneusement contrôlé par le Louvre (contre rémunération, et sous condition de diffusion restreinte seulement) : le règlement intérieur interdit la photographie de ces ½uvres (en pratique, les gardiens vous laissent faire si vous êtes dans un groupe de touristes, avec un angle pourri permettant seulement une photo-souvenir, mais vous ne parviendrez pas à poser un pied sous l'appareil photo). De même que la photographie des documents, même numérique et sans flash, est strictement interdite à la BnF.

    Une des racines du problème (sinon la racine du problème) relève d'un choix de politique_culturelle de l'État, et de la seconde mission des musées et bibliothèques (après la mission de diffusion) : la conservation du patrimoine. Cette conservation coûte cher, et il est de plus en plus souvent demandé aux institutions de la financer en partie sur leurs fonds propres (plutôt qu'uniquement sur des fonds publics). Aussi nous (acteurs du libre et enthousiastes du domaine public) devons êtres vigilants quant aux décisions relevant de la politique culturelle, si nous voulons attaquer le mal à la racine.

    Notez que ces problématiques sont concomitantes de l'ère numérique : le domaine public (plus précisément, l'expiration du droit patrimonial) était une disposition légale souvent très théorique, pour ainsi dire virtuelle, et presque inexploitable avant internet (le grand public ne pouvait pas vraiment en tirer profit, la diffusion restait sous contrôle des conservateurs du patrimoine, qui ont alors pris cette habitude d'en faire payer l'accès aux éditeurs de contenu professionnels, lesquels ne pouvaient pas se permettre de bruler les ponts).

    Voyez ce superbe article sur le sujet d'André Gunthert, chercheur à EHESS et membre de la Société française de photographie (institution qui conserve une grande quantité d'½uvres du domaine public), exposant le contexte, les enjeux et les risques à venir à partir d'un cas ou Wikipédia est (un brin maladroitement) impliquée : [http://www.arhv.lhivic.org/index.php/2006/08/25/209-daguerre(...)]

    Le nouveau site de Gallica permettant de consulter une partie des ½uvres fraîchement numérisées est déjà accessible [http://gallica2.bnf.fr/]. Mais Gallica a décidé de ne pas faire de relecture/correction après l'OCR, ce qui donne un résultat assez peu probant sur les ½uvres les plus anciennes. Essayez par exemple ceci [http://gallica2.bnf.fr/ark:/12148/bpt6k814390] (choisissez « Display: text mode » pour avoir l'affichage post-OCR). Ils ont aussi choisi un mode d'affichage dynamique des contenus numérisés qui permet de compliquer l'indexation par leurs concurrents, Google, Yahoo et MS (comme pour Europeana semble-t-il : [http://www.europeana.eu/]). S'agissant de libérer les outils, espérons qu'ils ne feront pas le choix d'un OCR propriétaire. Espérons qu'en dépit de leur amère acrimonie envers Google, ils choisiront de participer au développement du plus prometteurs des OCR libres (Tesseract & co) où Google investit beaucoup : contribuer à ces outils serait un investissement public profitable à tous, y compris aux bénévoles de Wikisources et Gutenberg (et aux rippeurs de sous-titres ;). Je n'ai pas trouvé d'indication sur le sujet dans les documents sur SPAR liés par la dépêche.

    À ce sujet, la position très fermée et très anti-google (quand ce n'est pas « anti internet ») de la BnF (Jean-Noël Jeanneney, directeur de la BnF jusqu'en avril 2007, a publié plusieurs pamphlets élitistes contre google et l'accès élargit non-hiérarchisé à la culture) est contestée depuis longtemps. Cette tribune du spécialiste de la numérisation des bibliothèque (et physicien) Alexandre Moatti a été publiée dans Le Monde (au passage, ce journal a caviardé sans prévenir l'auteur une phrase disant du bien de Wikipédia, ce qui nous rappellera à point nommé la position ambigüe des médias généralistes quant à la culture libre...) : [http://bibnum.over-blog.com/article-12513869.html]

    Pendant que j'y suis, peut-être un peu hors sujet (quoique...), je vous recommande cet autre article du chercheur indiqué plus haut, André Gunthert, intitulé Le daguerréotype, première expérience open source : [http://www.arhv.lhivic.org/index.php/2006/12/15/274-le-dague(...)].
    • [^] # Re: Politique culturelle et accès au domaine public : pour quoi militer

      Posté par  (site web personnel) . Évalué à 5.

      Excellente contribution, merci.
      Je viens d'essayer le mode texte après OCR ... C'est catastrophique. Je pense que la solution serait d'ouvrir un wiki pour chacune des pages traitées par OCR puis, quand la page serait marquée "terminée", la verrouiller pour que les éventuelles erreurs qui auraient pu passer à travers mailles passent par un modérateur.
      Cette solution est sans doute trop moderne pour cette vielle institution. Faudra-t-il attendre encore 10 ans ? Espérons que non.
      • [^] # Re: Politique culturelle et accès au domaine public : pour quoi militer

        Posté par  (site web personnel) . Évalué à 2.

        Le mode OCR a des limites, une page comme http://www.europeana.eu/ark:/12148/bpt6k2049479.f5# ou la suivante n'est pas du tout interprétée par le système OCR. Il est écrit que c'est pour les déficients visuels... Certes, c'est mieux que rien, mais dans bien des cas, le résultat est inexploitable. La correction en mode wiki me semble être une bonne voie, en attendant la mise au format docbook !
        • [^] # Re: Politique culturelle et accès au domaine public : pour quoi militer

          Posté par  . Évalué à 7.

          > La correction en mode wiki me semble être une bonne voie

          Tout à fait d'accord, mais je crois que c'est sans espoir, du moins si l'on attend que ça vienne des décisionnaires institutionnels. Il y a une très forte culture du contrôle top down (disons, un élitisme déplacé, et une très faible confiance à l'égard du bas peuple travail communautaire), dans le milieu (à ce sujet, avez vous déjà essayé de visiter la BnF ?). Et des responsabilités institutionnelles qui rendraient l'opération délicate. Le contrôle des corrections a posteriori est très difficile (ou plutôt, il rends la tache vaine, car contrôler serait probablement aussi coûteux que de corriger directement).

          Lisez ce que Jean-Noël Jeanneney (ex-directeur de la BnF, et à l'initiative des décisions actuellement mises en oeuvre) dit de Wikipédia ([http://www.lepoint.fr/content/societe/article?id=189153], en bas de l'article) : « Wikipédia n'est pas réellement en mesure de filtrer à coup sûr les erreurs. », « besoin d'un comité de lecture qui fasse autorité », « utopie de la gratuité », etc. Bien sûr, l'avenir le contredira (de même que la BnF a dû partiellement céder sur l'accès gratuit et la numérisation, malgré qu'ils en aient) ; mais dans moins de 10 ans ? je n'y crois pas.

          Une solution alternative, qui sera sans doute mise en ½uvre (reste à savoir si ce sera à grande échelle), consistera à court-circuiter leur processus décisionnel et leur site web : il y aura certainement des personnes pour développer des outils permettant d'aspirer les scans sur Gallica2/Europeana, de les traiter numériquement, et de les pousser dans Wikisource ou Commons, où les corrections et les responsabilités sont gérées par la communauté (en fait, ça se fait déjà en aspirant le contenu du Gallica actuel et le convertissant au format ouvert intermédiaire DjVu, cf. [http://fr.wikisource.org/wiki/Aide:Cr%C3%A9er_un_fichier_DjV(...)]). Le fait qu'ils fuient l'indexation par Google fera que Wikisource sera mieux référencé, et attirera préférentiellement les contributeurs, de toutes façons. Bref, il faut vraiment tout faire nous même dans ce pays ;).

          Nous avons surtout besoin d'outils d'OCR et de preprocessing libres et performants.
          • [^] # Re: Politique culturelle et accès au domaine public : pour quoi militer

            Posté par  (site web personnel) . Évalué à 5.

            Lisez ce que Jean-Noël Jeanneney (ex-directeur de la BnF, et à l'initiative des décisions actuellement mises en oeuvre) dit de Wikipédia ([http://www.lepoint.fr/content/societe/article?id=189153], en bas de l'article) : « Wikipédia n'est pas réellement en mesure de filtrer à coup sûr les erreurs. », « besoin d'un comité de lecture qui fasse autorité », « utopie de la gratuité », etc.


            Je ne sais pas ce qui me choque le plus: cette vision élitaire du savoir - doublée de mépris - ou cette hypocrisie de sous-entendre qu'une encyclopédie papier est impartiale ou plus juste ou dénuée d'erreur: la maison d'édition dont elle dépend sait toujours où sont ses intérêts.

            "La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay

          • [^] # Re: Politique culturelle et accès au domaine public : pour quoi militer

            Posté par  . Évalué à 2.

            Bref, il faut vraiment tout faire nous même dans ce pays ;)

            tu ne crois pas si bien dire :), il y a le projet gutenberg, qui OCRise les livres pour les livrer au format txt, mais ne mets pas a disposition les images du livre.

            j'ai moi meme scanné 3 livres pour les mettre a disposition sur internet, par contre le format un peu trop libre est peu etre mal adapté a une large diffusion malgré la performance de ce format (djvu). par contre vu le boulot pour OCRiser j'attend d'avoir un outil performant.

            somme nous condamné a acheter des livres puis les numeriser puis les OCRiser et mettre tous cela a disposition ? comme l'idée emise plus bas ? moi je suis plutot pour mais cela risque d'avancer doucement.
    • [^] # Re: Politique culturelle et accès au domaine public : pour quoi militer

      Posté par  . Évalué à 5.

      pour le projet de numérisation de la BNF ... c'est ABBYY qui est utilisé comme OCR ... y'a aussi du Microsoft pour le développement des outils ...

      comme j'ai dit plus haut ... le projet de la BNF pour la numérisation des livres c'est 100% proprio
      • [^] # Re: Politique culturelle et accès au domaine public : pour quoi militer

        Posté par  . Évalué à 6.

        J'ai travaillé à l'évaluation de différent logiciels d'OCR (pour une boite privée, rien a voir avec la BNF).
        Les logiciels libres n'arrivent pas à la cheville de Finereader (ABBYY). C'est dommage mais c'est un fait.

        Je connais bien le domaine, et je crois que l'idée "on embauche quelques types pour améliorer un logiciel libre, tout le monde profitera des améliorations" n'est pas très réaliste ici. Le travail de R&D derrière FineReader est colossal, l'espoir de les rattraper rapidement me semble irréaliste.

        Et la, c'est le résultat qui compte. L'outil n'a pas tellement d'importance. Le prosélitisme a ses limites.
    • [^] # Re: Politique culturelle et accès au domaine public : pour quoi militer

      Posté par  . Évalué à 0.

      pour le projet de numérisation de la BNF ... c'est ABBYY qui est utilisé comme OCR ... y'a aussi du Microsoft pour le développement des outils ...

      comme j'ai dit plus haut ... le projet de la BNF pour la numérisation des livres c'est 100% proprio
    • [^] # Re: Politique culturelle et accès au domaine public : pour quoi militer

      Posté par  (site web personnel) . Évalué à 3.

      ses concurrents (Google, Yahoo, MS)

      ah tiens, j'aurais plutôt pensé Hachette, Lafont, Hersant...
      le choix d'une licence libre permettrait de faire rayonner le français et connaître notre littérature au plus grand nombre, n'est-ce-pas une ouverture franche et concrète qui serait possible ?

      N'était-ce pas Bill Gates qui s'était proposé d'acheter les droits exclusifs de reproduction d'images d'oeuvres du Louvre, ce qui avait fini par faire un tollé et tomber à l'eau ce projet ?

      Le choix d'une licence libre permettant de conserver les travaux dérivés (traduction par exemple) sous la même licence serait peut-être opportun aussi (même si je ne le pense pas : autant garder cela dans le domaine public : cela n'empêche pas de citer l'auteur, un travail dérivé sans citer l'auteur serait sans doute considéré comme un plagiat ? ou en tout cas identifié comme tel assez rapidement àmha).
      • [^] # Re: Politique culturelle et accès au domaine public : pour quoi militer

        Posté par  . Évalué à 2.

        cela n'empêche pas de citer l'auteur, un travail dérivé sans citer l'auteur serait sans doute considéré comme un plagiat ?

        Au minimum ce serait contraire au droit moral.
      • [^] # Re: Politique culturelle et accès au domaine public : pour quoi militer

        Posté par  . Évalué à 3.

        >> ses concurrents (Google, Yahoo, MS)
        > ah tiens, j'aurais plutôt pensé Hachette, Lafont, Hersant...

        Lorsque j'écrit que Google, Yahoo et MS sont leurs concurrents, je raporte simplement la position publiquement affichée des décideurs et dirigeants de la BnF. Depuis l'annonce de Google Print, la direction de la BnF a toujours considéré les moteurs de recherche « américains » comme des compétiteurs, et des menaces pour la culture française. Aussi on-t-ils refusé à Google la possibilité de numériser les ouvrages de la BnF.

        Pourtant, le fait que Google Print (avec un budget annoncé de +150 M$) ou Microsoft numérisent parallèlement à leur propres projets (Gallica, budget 100% public, de seulement 3.5 M$) ne devrait rien leur enlever, n'est-ce-pas ?

        > le choix d'une licence libre permettrait de faire rayonner le français et connaître notre littérature au plus grand nombre

        C'est tout à fait ça. Mais la perception chez nos dirigeants est bien différente. Jeanneney voit dans les projets américains une « volonté hégémonique d'imposer une culture anglo-saxonne » (sic, cf. [http://www2.cnrs.fr/presse/journal/2404.htm]). Pour lui le contenu n'est rien sans l'index de qualité (comprendre : qui hiérarchise l'information), d'où ces tentatives pour garder un contrôle franco-français (même dans les projets européens) sur l'ensemble et pour barrer la route aux moteurs de recherche (et leurs indexes diaboliques et américains). Si vous avez accès aux archives (payantes...) du Monde, cet article sur ce point a fait grand bruit à l'époque : http://www.lemonde.fr/cgi-bin/ACHATS/acheter.cgi?offre=ARCHI(...)

        L'ex-président de la BnF a même publié un livre sur ce ton : [http://www.press.uchicago.edu/cgi-bin/hfs.cgi/00/216412.ctl]. Bien entendu, les petits rois des médias papiers applaudissent des deux mains : [http://passouline.blog.lemonde.fr/livres/2005/04/jeanneneygo(...)].

        Ce qui permet surtout aux médias étrangers de se moquer de la France, à juste titre [http://www.telegraph.co.uk/arts/main.jhtml?xml=/arts/2007/01(...)]. Comme les wikipédiens français d'ailleurs : [http://referencenecessaire.wordpress.com/2007/06/22/jean-noe(...)], qui habilement rapproche les coûteux et castafioresques délires des élites de la BnF avec ceux ayant conduit au projet Géoportail ([http://www.geoportail.fr/], avec le succès planétaire qu'on lui connait - il suffisait pourtant de libérer les données). C'est pourquoi j'indiquais le texte d'Alexandre Moatti paru dans le Monde (cf. plus haut).

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.