Journal Scanner & OCR

Posté par Quzqo le 08 juillet 2004 à 11:27.

Étiquettes : aucune

juil.

2004

Bonjour,

Si l'installation d'un scanner USB (du moins celui que j'ai testé : HP Scanjet 4300C) comme le paramétrage de Sane, ne posent de problème sous Linux, j'éprouve un peu de mal à trouver un logiciel d'OCR...

Jusqu'à maintenant, j'ai testé gocr et clara sans résultat probant.
Le premier me donne des résultats désastreux (même à partir d'un scan de texte typographié) et autant saisir à la main le texte scanné. D'ailleurs, existe-t-il pour gocr des possibilités d'apprentissage ? (j'en doute sachant que ça reste encore une version de développement)

Le second m'a paru im-bit-table et reste limité pour ce qui est des formats en entrée (n'accepte pas le format PNM de sane, seulement PBM et PGM je crois). Par ailleurs, clara ne parait pas pouvoir (en première approche) "OCRizer" une quelconque image sans passer par une phase d'apprentissage.

J'ai sans doute survolé ces deux logiciels mais j'avoue que la documentation trouvée reste bien maigre et exclusivement amglo-saxone.

Connaissez-vous des liens intéressants les concernant ?
D'autres logiciels libres d'OCR ?
Des équivalents commerciaux (au pire) "user-friendly" ?

Note aux admins : Excellent ce "Des journaux similaires ont été postés!" lors de la création d'un journal : BRAVO !

# Coïncidence !

Posté par Christophe GRAND (site web personnel) le 08 juillet 2004 à 11:34. Évalué à 2.

J'allais poster un journal sur l'OCR.

Ma problématique est différente : il s'agit de reconnaître du texte dans des images basses résolutions (un site où des images étaient utilisées à la place du texte et dont à présent il faut changer la charte :-<).

Pour le moment j'ai testé ocrad et gocr. J'ai de meilleurs résultats avec gocr mais avec le paramètre "-l 160" et des images en niveaux de gris (mercie ImageMagick).

Si quelqu'un a des retours d'expériences de ce type (ocr ligne de commande), je suis preneur.
# ça manque

Posté par ccomb (site web personnel) le 08 juillet 2004 à 11:47. Évalué à 4.

Il n'y a pas grand chose pour l'OCR. Le seul truc acceptable que j'ai trouvé pour être efficace, c'est d'utiliser "Simple OCR" sous wine, après avoir scanné avec sane.

Si quelqu'un connait un projet en cours pour faire un bon moteur au GPL d'OCR, merci de l'indiquer.
C'est dommage, car l'OCR peut utiliser des réseaux neuronaux et c'est (je trouve) le domaine le plus interessant de l'informatique.

En tout cas gocr est aussi une bibliothèque servant de surcouche à n'importe quel moteur d'OCR, qui devrait donc simplifier la vie d'éventuels créateurs de moteurs en les laissant se concentrer sur les algos. Pour ceux qui s'interessent aux réseaux neuronaux, il y a ça : http://www-ra.informatik.uni-tuebingen.de/SNNS/(...)
# pas de pbs avec gorc

Posté par sn00py le 08 juillet 2004 à 12:06. Évalué à 2.

J'utilise assez souvent gorc ai j'ai pas eut bcp de problèmes. Il nous de mande de taper une fois chaque lettre pour contruire sa base de donnée, puis reconnait a peut près tout le reste. gorc en chie vraiment seulement si les charactère se touchent.

Le pricipal inconvéniant à gorc, c'est qu'il n'utilise pas de dictionnaire en interne, il a donc du mal à différencier certaine lettre tel que 'I' (i majuscule)
ou 'l' (L minuscule) , voir même 't'

Il apprait donc que beaucoup de mots sont incorrect, mais deux méthode combinés permettent de corriger ça assez rapidement :

1) Utiliser un script sed qui, en fonction de la langue, remplace les choses très improbable. Par exemple en français, le mot 'll' (deux L minsucule) est très peu probable, le mot correct est surement 'Il' (i majuscule, L minuscule).
Ce soit être en fonction de la langue car par exemple, en anglais, l'interprétation ci-dessus est inversé ( you'll <=> you will)

2) utiliser un dictionnaire tel que aspell ou ispell.

Pour automatiser tout ça, rien ne vaut un petit script. Le boulo de l'utilisateur consistera ensuite à taper une fois chaque lettre, puis à piloter ispell pour finir les dernières corrections.

Note pour gorc: il y a un paramêtre important qui définit une estimation de la taille des caractères, en bidouillant ce paramètre, on améliore nettement les résultats. Mais je ne peut donner de méthode pour optimser ce paramêtre :-(
- [^] # Re: pas de pbs avec gorc
  
  Posté par o°Oo°Oo°o°O°Oo°Oo°Oo°Oo°o°O°O o° le 08 juillet 2004 à 17:33. Évalué à 0.
  
  Par exemple en français, le mot 'll' (deux L minsucule) est très peu probable, le mot correct est surement 'Il' (i majuscule, L minuscule).
  
  J'ai comme un doute... ;-)
  
  nouille, couille, femelle, voyelle, chamelle, pelle, selle, anticonstitutionnellement, gilles, elle, prunelle, castillan, mouiller, faillite, ailleurs, nouvelle, collège, syllabe, querelle, allemand, ville, réelle, traditionnellement, meilleur, belle, vieillard, quelle, pareille, partielle, oreille, celle, telle, paille, naturellement, bouteille, actuellement, actuelle, vieille, allonge, casuelle, personnelle, illusion, corneille, jumelles, famille, solennelle, rappelle, tellement, nulle, bruxelles, sexuelle, cellule, allaiter, allogame, pollinisation, ombellifère, aquarelle, feuille, rouille, brouillard, cagouille, caille, antilles, colle, vectorielle, collier, défourailler, vérouiller, habiller, échelle, polluant, allonger, barbouiller, folliculine, football, handball, quadriller, gaspillage, mille, million, milliard, salle, mollusque, maille, maillot, occasionnellement, superficielle, taille, travailleur, phallus, tatillon, vrille, excellent, parcelle, quille, embellir, roller, rougaille, échantillon, aller, écailles, laquelle, griller, vanille, alliage, camomille, etc.
  - [^] # Re: pas de pbs avec gorc
    
    Posté par dany le 08 juillet 2004 à 17:45. Évalué à 1.
    
    et si tu ajoutes un espace avant et après, ce qu'a probablement voulu dire l'auteur ?
    - [^] # Re: pas de pbs avec gorc
      
      Posté par Nicolas Schoonbroodt le 08 juillet 2004 à 17:56. Évalué à 3.
      
      Je pense aussi, car on à quand même rarement en français un I majuscule au millieu d'un mot ;) (je n'en trouve pas, mais sait-on jamais :D
# Projet

Posté par matiphas le 08 juillet 2004 à 12:40. Évalué à 2.

C'est peut etre un projet a lancer.

Pour info, dans le linux mag, il y a un article tres interessant d'introduction a la reconnaissance des gestes et des formes, avec une bonne bibliographie (decidement cette serie d'article orientee AI est vraiment bien).

Christophe (touf) si ca te tente de te lancer la dedans, fais moi signe.
Perso ca m'interesse a mort.

Je pense qu'une bonne idee de base serait de recuperer le code de gocr et clara, et ensuite essayer de construire une API a partir de la.

Je pensais a une architecture de moteur pouvant faire le lien entre
- soit une interface specifique
- soit entre different programmes d'acquisition (sane/kooka...) et differents editeurs/traitements de texte

Pour info, algorithmiquement : gocr travaille sur la reconnaissance de particularites typographiques, clara se focalise sur l'apprentissage.

D'autres programmes peuvent etre tres interessants a regarder car n'etant pas tres eloignes du probleme (conversion bitmap vers vectoriel) : autotrace & potrace.
- [^] # Re: Projet
  
  Posté par matiphas le 08 juillet 2004 à 14:01. Évalué à 5.
  
  QQUes liens en tout genre sur les ocr libres ou de la doc les concernant :
  
  gocr : http://jocr.sourceforge.net/links.html(...)
  clara : http://www.claraocr.org/(...)
  ocrad : http://www.gnu.org/software/ocrad/ocrad.html(...)
  
  Une revue de deux ocr sous linux :
  http://www.linuxworld.com/story/32641.htm(...)
  
  Une page de reference (liens et docs):
  http://www.linux-ocr.ekitap.gen.tr/(...)
  
  Une FAQ:
  http://www.cfar.umd.edu/~kia/ocr-faq.html(...)
  
  et pele-mele (progs et docs) :
  http://sourceforge.net/projects/lince/(...)
  http://sourceforge.net/projects/kognition/(...)
  http://sourceforge.net/projects/phpocr/(...)
  http://sourceforge.net/projects/nocr/(...)
  http://kuto.sourceforge.net/(...)
  http://lem.eui.upm.es/ocre.html(...)
  http://www.math.nwu.edu/~mlerma/locr/(...)
  http://http.cs.berkeley.edu/~fateman/kathey/ocrchie.html(...)
  http://documents.cfar.umd.edu/(...)
  http://www.arrakis.es/~evaquero/ocr.html(...)
  http://www.softwareprojects4u.com/ocr/(...)
  ftp://ftp.csc.calpoly.edu/pub/ocr/(...)
  http://dkc.mse.jhu.edu/gamera/(...)
  http://www.pattern-lab.de/index_e.html(...)
  - [^] # Re: Projet
    
    Posté par ccomb (site web personnel) le 09 juillet 2004 à 14:13. Évalué à 2.
    
    Allez, comme il faut bien un début à tout, commençons par de la recherche d'informations :
    J'ai recopié tous ces liens sur mon wiki, il faudrait les explorer, en ajouter d'autres, et en extraire des infos à classer par catégories (API, algos, idées...)
    http://ccomb.free.fr/wiki/wakka.php?wiki=OpCaRe(...)
- [^] # Re: Projet
  
  Posté par lampapiertramol (site web personnel) le 08 juillet 2004 à 20:13. Évalué à 0.
  
  S'il vous plais n'encouragez pas la diffusion de ces technologies, elle permettraient entre de mauvaises mains de faire un bot caballiste pour voter sur linuxfr...
  - [^] # Re: Projet
    
    Posté par Raphaël G. (site web personnel) le 26 juillet 2004 à 03:42. Évalué à 0.
    
    heuuu d'hab les pirates ont toujours de l'avance sur les protections...
    
    donc je pense que de toute façon si y en a un qui veut s'ammuser a faire un bot de vote automatique il peut l'avoir fait en deux trois mouvements...
    
    Et ce qu'on lui fille les liens ou non...
# Et kooka?

Posté par ghunt (site web personnel) le 08 juillet 2004 à 14:19. Évalué à 2.

C'est un GUI pour Ocrad

http://www.kde.org/apps/kooka/(...)

J'ai survolé à l'époque ... ça avait pas l'air trop mal.

Mais il faut installer des truc KDE
# commercial, pas libre et cher, mais efficace...

Posté par Nicolas Bernard (site web personnel) le 11 juillet 2004 à 17:54. Évalué à 2.

Le moteur d'omnipage pour linux: http://www.vividata.com(...)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.