Journal Google et logiciel OCR Open Source

Posté par sebek le 05 septembre 2006 à 10:17.

Étiquettes :

sept.

2006

Google a annoncé aujourd'hui avoir ouvert le code du logiciel Tesseract.
Celui ci est un logiciel de reconnaissance de caractères développé par HP entre 1985 et 1995. Ils ont corrigé quelques petits bugs avant de faire l'annonce.

Selon l'article, il s'agissait du meilleur logiciel d'OCR à son époque. Reste que c'était il y a 10 ans ... Depuis les logiciels d'OCR ont progressé, arrivent a détecter différents blocs de texte, les images etc...

Souhaitons longue vie à ce projet, il s'agit AMHA d'un gros manque sur le bureau linux.

article : http://google-code-updates.blogspot.com/2006/08/announcing-t(...)

page du projet sur SF :
http://www.sourceforge.net/projects/tesseract-ocr

# \o/

Posté par Rhadamante le 05 septembre 2006 à 10:49. Évalué à 3.

Merci Google. ça c'est une idée qu'elle est bonne.
- [^] # License: (None Listed)
  
  Posté par Guillaume le 05 septembre 2006 à 11:45. Évalué à -1.
  
  Une idée?
  "open source" c'est un peu vague je trouve.
  - [^] # Re: License: (None Listed)
    
    Posté par mickabouille le 06 septembre 2006 à 10:46. Évalué à 2.
    
    Pas dur : il est sourceforge, il suffit de telecharger les sources et regarder copying pour avoir une idée générale (après il peut y avoir des différences si on regarde au niveau de chaque fichier).
    Résultat : apache licence 2 pour l'essentiel, une dépendance (aspirin) qui est sous une licence de type "non-commercial", donc non libre.
# Un manque ?

Posté par Christophe Chailloleau-Leclerc le 05 septembre 2006 à 10:52. Évalué à 3.

http://linuxfr.org/2003/03/08/11651.html
- [^] # Re: Un manque ?
  
  Posté par Dring le 05 septembre 2006 à 13:07. Évalué à 5.
  
  Ce (très) vieux journal parle essentiellement de GOCR. Pour l'avoir utilisé, j'ai trouvé les résultats catastrophiques, quelle que soit la police de caractères, et même avec des documents scannés de bonne qualité.
  
  Bref, pour moi, il y a effectivement un manque, j'ai rien vu sous Linux qui approche ce que j'avais sous Windows il y a 10 ans.
# j'en connais...

Posté par Calim' Héros le 05 septembre 2006 à 10:53. Évalué à 5.

qui veulent pas se casser la tete pour pouvoir publier de vieux ouvrages actuellement manuscrits...
- [^] # Re: j'en connais...
  
  Posté par Snark_Boojum le 05 septembre 2006 à 11:11. Évalué à 1.
  
  Moi aussi j'en connais : http://www.numdam.org/
  et c'est très dur à numériser : un texte mathématique, c'est hautement compliqué, car par exemple :
  * beaucoup plus de caractères que les lettres usuelles dans un texte
  * avec des symboles de différentes tailles
  * avec des choses en indice et en exposant
  * avec des équations sur plusieurs "lignes" (parce qu'il y a une fraction, une limite, une sommation... les bornes d'une intégrale)
  
  Bref, la numérisation ça n'intéresse pas forcément qu'un éditeur paresseux, ça peut aussi intéresser des institutions très bien mais financièrement limitées.
  - [^] # Re: j'en connais...
    
    Posté par Calim' Héros le 05 septembre 2006 à 11:43. Évalué à 5.
    
    Je n'ai pas dit que ca interesserais personne d'autre... juste que google publie les livre du domaine publique et qu'a premiere vue, numériser ceux qui sont manuscrit les interresse enormément.
# pour de meilleurs CAPTCHA

Posté par herodiade le 05 septembre 2006 à 11:16. Évalué à 5.

À l'heure où les spammeurs cherchent à faire monter leur score, justement sur google, en bombardant les commentaires des blogs, des wikis etc., cet outil, s'il est efficace, pourrai sonner le glas des mauvais CAPTCHA.

Éspérons qu'il y ai des progrès sur les implems libres de CAPTCHA, parce que Sam Hocevar a déjà frappé fort : http://sam.zoy.org/pwntcha/

En tout cas, un bon OCR pourrai booster Wikisource (http://wikisource.org/wiki/Main_Page ), c'est une très bonne nouvelle !
# Mouais

Posté par Hrundi V. Bakshi le 05 septembre 2006 à 11:45. Évalué à 7.

La techniques est rôdée.
Google libère un soft, y a du buzz, des grosses contributions, google embauche les 2 meilleurs contributeurs, puis crée une application lui permettant de vendre de nouvelles opportunités publicitaires.

C'est une très bonne stratégie. Google est une entreprise géniale, qui profite à fond de son image, mais je sais pas si elle pourra longtemps fonctionner comme ça.
Quand on essaye d'imaginer ce qui se passerait comme phénomène de rejet si une major proposerait à la communuaté de développer un logiciel de reconnaissance de musique, si une banque d'image demandait à une communauté de tagger les photos qu'il indexe, si uun publicitaire ouvrait un publicitaire-video, si MS distribuait un logiciel de photos ...
Pourtant, avec Google, tout marche.

Quand on y pense, et sans faire du pro-anti-google, on a vraiment l'impression que google a réussi son développement. Une sorte d'aura qui englobe tout, un peu hypnotisante.
- [^] # Re: Mouais
  
  Posté par ThesmallgamerS le 05 septembre 2006 à 12:08. Évalué à 3.
  
  Google en nouveau Maître Du Monde, ça le fait pas.
  Ça le fait d'autant moins qu'ils sont des fervents supporter du libre, qu'ils ont libéré un nombre impressionant de projets qui manquaient voir manquent toujours sous GNU/Linux et qu'ils ont nombre de fois afficher leur volonté de ne pas obliger les utilisateurs a utiliser leur logiciel, au contraire de Microsoft.
  
  Si on décide les utiliser, c'est après tout parce que ce sont les meilleurs et ça, c'est toute la philosophie OpenSource réduite en quelques mots. S'ils ne sont pas les meilleurs, on ne les utilise pas ou on en fait un clone libre.
  - [^] # Re: Mouais
    
    Posté par Hrundi V. Bakshi le 05 septembre 2006 à 12:17. Évalué à 2.
    
    J'ai pas dit Google maître du monde.
    J'ai dit google a pour stratégie de développement d'utiliser le libre comme catalyseur, et se fabrique une image "en rupture". Ca lui réussit plutôt bien, mais trop tirer sur la corde, ça lasse.
    - [^] # Re: Mouais
      
      Posté par apom le 05 septembre 2006 à 14:50. Évalué à 2.
      
      Ça te lasse qu'ils ouvrent les sources de certains programmes ? C'est un point de vue... Même si c'est bien sûr stratégique (Google a pour but principal de faire des bénéfices, rien de plus normal), je ne risque pas de me plaindre de cet aspect de ladite stratégie. Que ce soit Microsoft ou n'importe quelle autre société qui opte pour ce genre de politique, je ne voit pas pourquoi être mécontent du fait que leurs intérêts sont compatibles avec les miens (c'est le cas de l'ouverture des programmes).
- [^] # Re: Mouais
  
  Posté par Snarky le 05 septembre 2006 à 12:09. Évalué à 5.
  
  Ha ? Google embauche ? J'vais contribuer alors :-P
  - [^] # Re: Mouais
    
    Posté par Sylvain Briole le 05 septembre 2006 à 13:05. Évalué à 2.
    
    Bah, pas besoin de chercher bien loin:
    
    France :
    http://www.google.fr/support/jobs/bin/topic.py?loc_id=1112&a(...)
    Francais hors de France :
    http://www.google.fr/support/jobs/bin/topic.py?jobslg=fr
    International :
    http://www.google.com/intl/en/jobs/international.html
- [^] # Re: Mouais
  
  Posté par metcox le 05 septembre 2006 à 14:36. Évalué à 1.
  
  tagger les photos qu'il indexe
  c'est nouveau, c'est tout chaud : http://images.google.com/imagelabeler/
  publicitaire-video
  c'est un peu plus vieux : http://video.google.com/
  logiciel de photos
  plus récent : http://picasa.google.com/
  
  De ta liste il reste : logiciel de reconnaissance de musique
  et ça si google le fait je veux bien le lien :)
  - [^] # Re: Mouais
    
    Posté par WH le 05 septembre 2006 à 15:05. Évalué à 2.
    
    Un truc dans ce genre là ?
    http://www.musipedia.org/
    - [^] # Re: Mouais
      
      Posté par metcox le 05 septembre 2006 à 17:13. Évalué à 2.
      
      Très intéressant ce site. Notamment les différentes méthodes pour trouver un morceau (clavier virtuel, contour mélodique, chanter-siffler, rythmique).
      La base de données est enrichie par des contributeurs à la manière de wikipedia, et semble reposer sur des logiciels libres.
      merci pour ce lien :)
- [^] # Re: Mouais
  
  Posté par Nicolas Schoonbroodt le 05 septembre 2006 à 21:13. Évalué à 2.
  
  Tiens, j'ai une idée pour toi.
  Tu embauches les 2 meilleurs contributeurs, puis tu crées une application te permettant de vendre de nouvelles opportunités publicitaires.
# Google books

Posté par golum le 05 septembre 2006 à 17:18. Évalué à 2.

Pourquoi ils n'utilisent pas ce logiciel pour convertir en format numérique, les livres passés dans le domaine public qu'il ont scanné à l'arrache. Ca réduirait la consommation de bande passante et le résultat serait plus appréciable ?

Peut-être qu'il ne donne pas entière satisfaction.
Alors les gars, retroussez vos manches vous disposez d'un jeu de test gigantesque.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.