Journal Google et logiciel OCR Open Source

Posté par  (site web personnel) .
0
5
sept.
2006
Google a annoncé aujourd'hui avoir ouvert le code du logiciel Tesseract.
Celui ci est un logiciel de reconnaissance de caractères développé par HP entre 1985 et 1995. Ils ont corrigé quelques petits bugs avant de faire l'annonce.

Selon l'article, il s'agissait du meilleur logiciel d'OCR à son époque. Reste que c'était il y a 10 ans ... Depuis les logiciels d'OCR ont progressé, arrivent a détecter différents blocs de texte, les images etc...

Souhaitons longue vie à ce projet, il s'agit AMHA d'un gros manque sur le bureau linux.

article : http://google-code-updates.blogspot.com/2006/08/announcing-t(...)

page du projet sur SF :
http://www.sourceforge.net/projects/tesseract-ocr
  • # \o/

    Posté par  . Évalué à 3.

    Merci Google. ça c'est une idée qu'elle est bonne.
    • [^] # License: (None Listed)

      Posté par  . Évalué à -1.

      Une idée?
      "open source" c'est un peu vague je trouve.
      • [^] # Re: License: (None Listed)

        Posté par  . Évalué à 2.

        Pas dur : il est sourceforge, il suffit de telecharger les sources et regarder copying pour avoir une idée générale (après il peut y avoir des différences si on regarde au niveau de chaque fichier).
        Résultat : apache licence 2 pour l'essentiel, une dépendance (aspirin) qui est sous une licence de type "non-commercial", donc non libre.
  • # Un manque ?

    Posté par  . Évalué à 3.

    • [^] # Re: Un manque ?

      Posté par  . Évalué à 5.

      Ce (très) vieux journal parle essentiellement de GOCR. Pour l'avoir utilisé, j'ai trouvé les résultats catastrophiques, quelle que soit la police de caractères, et même avec des documents scannés de bonne qualité.

      Bref, pour moi, il y a effectivement un manque, j'ai rien vu sous Linux qui approche ce que j'avais sous Windows il y a 10 ans.
  • # j'en connais...

    Posté par  (site web personnel) . Évalué à 5.

    qui veulent pas se casser la tete pour pouvoir publier de vieux ouvrages actuellement manuscrits...
    • [^] # Re: j'en connais...

      Posté par  . Évalué à 1.

      Moi aussi j'en connais : http://www.numdam.org/
      et c'est très dur à numériser : un texte mathématique, c'est hautement compliqué, car par exemple :
      * beaucoup plus de caractères que les lettres usuelles dans un texte
      * avec des symboles de différentes tailles
      * avec des choses en indice et en exposant
      * avec des équations sur plusieurs "lignes" (parce qu'il y a une fraction, une limite, une sommation... les bornes d'une intégrale)

      Bref, la numérisation ça n'intéresse pas forcément qu'un éditeur paresseux, ça peut aussi intéresser des institutions très bien mais financièrement limitées.
      • [^] # Re: j'en connais...

        Posté par  (site web personnel) . Évalué à 5.

        Je n'ai pas dit que ca interesserais personne d'autre... juste que google publie les livre du domaine publique et qu'a premiere vue, numériser ceux qui sont manuscrit les interresse enormément.
  • # pour de meilleurs CAPTCHA

    Posté par  . Évalué à 5.

    À l'heure où les spammeurs cherchent à faire monter leur score, justement sur google, en bombardant les commentaires des blogs, des wikis etc., cet outil, s'il est efficace, pourrai sonner le glas des mauvais CAPTCHA.

    Éspérons qu'il y ai des progrès sur les implems libres de CAPTCHA, parce que Sam Hocevar a déjà frappé fort : http://sam.zoy.org/pwntcha/

    En tout cas, un bon OCR pourrai booster Wikisource (http://wikisource.org/wiki/Main_Page ), c'est une très bonne nouvelle !
  • # Mouais

    Posté par  . Évalué à 7.

    La techniques est rôdée.
    Google libère un soft, y a du buzz, des grosses contributions, google embauche les 2 meilleurs contributeurs, puis crée une application lui permettant de vendre de nouvelles opportunités publicitaires.

    C'est une très bonne stratégie. Google est une entreprise géniale, qui profite à fond de son image, mais je sais pas si elle pourra longtemps fonctionner comme ça.
    Quand on essaye d'imaginer ce qui se passerait comme phénomène de rejet si une major proposerait à la communuaté de développer un logiciel de reconnaissance de musique, si une banque d'image demandait à une communauté de tagger les photos qu'il indexe, si uun publicitaire ouvrait un publicitaire-video, si MS distribuait un logiciel de photos ...
    Pourtant, avec Google, tout marche.

    Quand on y pense, et sans faire du pro-anti-google, on a vraiment l'impression que google a réussi son développement. Une sorte d'aura qui englobe tout, un peu hypnotisante.
    • [^] # Re: Mouais

      Posté par  . Évalué à 3.

      Google en nouveau Maître Du Monde, ça le fait pas.
      Ça le fait d'autant moins qu'ils sont des fervents supporter du libre, qu'ils ont libéré un nombre impressionant de projets qui manquaient voir manquent toujours sous GNU/Linux et qu'ils ont nombre de fois afficher leur volonté de ne pas obliger les utilisateurs a utiliser leur logiciel, au contraire de Microsoft.

      Si on décide les utiliser, c'est après tout parce que ce sont les meilleurs et ça, c'est toute la philosophie OpenSource réduite en quelques mots. S'ils ne sont pas les meilleurs, on ne les utilise pas ou on en fait un clone libre.
      • [^] # Re: Mouais

        Posté par  . Évalué à 2.

        J'ai pas dit Google maître du monde.
        J'ai dit google a pour stratégie de développement d'utiliser le libre comme catalyseur, et se fabrique une image "en rupture". Ca lui réussit plutôt bien, mais trop tirer sur la corde, ça lasse.
        • [^] # Re: Mouais

          Posté par  . Évalué à 2.

          Ça te lasse qu'ils ouvrent les sources de certains programmes ? C'est un point de vue... Même si c'est bien sûr stratégique (Google a pour but principal de faire des bénéfices, rien de plus normal), je ne risque pas de me plaindre de cet aspect de ladite stratégie. Que ce soit Microsoft ou n'importe quelle autre société qui opte pour ce genre de politique, je ne voit pas pourquoi être mécontent du fait que leurs intérêts sont compatibles avec les miens (c'est le cas de l'ouverture des programmes).
    • [^] # Re: Mouais

      Posté par  . Évalué à 5.

      Ha ? Google embauche ? J'vais contribuer alors :-P
    • [^] # Re: Mouais

      Posté par  . Évalué à 1.

      tagger les photos qu'il indexe
      c'est nouveau, c'est tout chaud : http://images.google.com/imagelabeler/
      publicitaire-video
      c'est un peu plus vieux : http://video.google.com/
      logiciel de photos
      plus récent : http://picasa.google.com/

      De ta liste il reste : logiciel de reconnaissance de musique
      et ça si google le fait je veux bien le lien :)
      • [^] # Re: Mouais

        Posté par  (site web personnel) . Évalué à 2.

        Un truc dans ce genre là ?
        http://www.musipedia.org/
        • [^] # Re: Mouais

          Posté par  . Évalué à 2.

          Très intéressant ce site. Notamment les différentes méthodes pour trouver un morceau (clavier virtuel, contour mélodique, chanter-siffler, rythmique).
          La base de données est enrichie par des contributeurs à la manière de wikipedia, et semble reposer sur des logiciels libres.
          merci pour ce lien :)
    • [^] # Re: Mouais

      Posté par  . Évalué à 2.

      Tiens, j'ai une idée pour toi.
      Tu embauches les 2 meilleurs contributeurs, puis tu crées une application te permettant de vendre de nouvelles opportunités publicitaires.
  • # Google books

    Posté par  . Évalué à 2.

    Pourquoi ils n'utilisent pas ce logiciel pour convertir en format numérique, les livres passés dans le domaine public qu'il ont scanné à l'arrache. Ca réduirait la consommation de bande passante et le résultat serait plus appréciable ?

    Peut-être qu'il ne donne pas entière satisfaction.
    Alors les gars, retroussez vos manches vous disposez d'un jeu de test gigantesque.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.