Journal : Scanner & OCR

Posté par Quzqo () le 08 juillet 2004
0
Bonjour,

Si l'installation d'un scanner USB (du moins celui que j'ai testé : HP Scanjet 4300C) comme le paramétrage de Sane, ne posent de problème sous Linux, j'éprouve un peu de mal à trouver un logiciel d'OCR...

Jusqu'à maintenant, j'ai testé gocr et clara sans résultat probant.
Le premier me donne des résultats désastreux (même à partir d'un scan de texte typographié) et autant saisir à la main le texte scanné. D'ailleurs, existe-t-il pour gocr des possibilités d'apprentissage ? (j'en doute sachant que ça reste encore une version de développement)

Le second m'a paru im-bit-table et reste limité pour ce qui est des formats en entrée (n'accepte pas le format PNM de sane, seulement PBM et PGM je crois). Par ailleurs, clara ne parait pas pouvoir (en première approche) "OCRizer" une quelconque image sans passer par une phase d'apprentissage.

J'ai sans doute survolé ces deux logiciels mais j'avoue que la documentation trouvée reste bien maigre et exclusivement amglo-saxone.

Connaissez-vous des liens intéressants les concernant ?
D'autres logiciels libres d'OCR ?
Des équivalents commerciaux (au pire) "user-friendly" ?

Note aux admins : Excellent ce "Des journaux similaires ont été postés!" lors de la création d'un journal : BRAVO !

> Lire le journal (13 commentaires, moyenne: 1,9).  

Cette discussion est archivée, il n'est plus possible de laisser des commentaires.

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.

Coïncidence !

Posté par Christophe GRAND (page perso, ) le 08/07/2004 à 09:34. (lien). Évalué à 2.

J'allais poster un journal sur l'OCR.

Ma problématique est différente : il s'agit de reconnaître du texte dans des images basses résolutions (un site où des images étaient utilisées à la place du texte et dont à présent il faut changer la charte :-<).

Pour le moment j'ai testé ocrad et gocr. J'ai de meilleurs résultats avec gocr mais avec le paramètre "-l 160" et des images en niveaux de gris (mercie ImageMagick).

Si quelqu'un a des retours d'expériences de ce type (ocr ligne de commande), je suis preneur.

ça manque

Posté par ccomb (Jabber id, page perso, ) le 08/07/2004 à 09:47. (lien). Évalué à 4.

Il n'y a pas grand chose pour l'OCR. Le seul truc acceptable que j'ai trouvé pour être efficace, c'est d'utiliser "Simple OCR" sous wine, après avoir scanné avec sane.

Si quelqu'un connait un projet en cours pour faire un bon moteur au GPL d'OCR, merci de l'indiquer.
C'est dommage, car l'OCR peut utiliser des réseaux neuronaux et c'est (je trouve) le domaine le plus interessant de l'informatique.

En tout cas gocr est aussi une bibliothèque servant de surcouche à n'importe quel moteur d'OCR, qui devrait donc simplifier la vie d'éventuels créateurs de moteurs en les laissant se concentrer sur les algos. Pour ceux qui s'interessent aux réseaux neuronaux, il y a ça : http://www-ra.informatik.uni-tuebingen.de/SNNS/(...)

pas de pbs avec gorc

Posté par sn00py () le 08/07/2004 à 10:06. (lien). Évalué à 2.

J'utilise assez souvent gorc ai j'ai pas eut bcp de problèmes. Il nous de mande de taper une fois chaque lettre pour contruire sa base de donnée, puis reconnait a peut près tout le reste. gorc en chie vraiment seulement si les charactère se touchent.

Le pricipal inconvéniant à gorc, c'est qu'il n'utilise pas de dictionnaire en interne, il a donc du mal à différencier certaine lettre tel que 'I' (i majuscule)
ou 'l' (L minuscule) , voir même 't'

Il apprait donc que beaucoup de mots sont incorrect, mais deux méthode combinés permettent de corriger ça assez rapidement :

1) Utiliser un script sed qui, en fonction de la langue, remplace les choses très improbable. Par exemple en français, le mot 'll' (deux L minsucule) est très peu probable, le mot correct est surement 'Il' (i majuscule, L minuscule).
Ce soit être en fonction de la langue car par exemple, en anglais, l'interprétation ci-dessus est inversé ( you'll <=> you will)

2) utiliser un dictionnaire tel que aspell ou ispell.

Pour automatiser tout ça, rien ne vaut un petit script. Le boulo de l'utilisateur consistera ensuite à taper une fois chaque lettre, puis à piloter ispell pour finir les dernières corrections.


Note pour gorc: il y a un paramêtre important qui définit une estimation de la taille des caractères, en bidouillant ce paramètre, on améliore nettement les résultats. Mais je ne peut donner de méthode pour optimser ce paramêtre :-(

  • [^]Re: pas de pbs avec gorc

    Posté par o°Oo°Oo°o°O°Oo° o°Oo°Oo°o°O°Oo° () le 08/07/2004 à 15:33. (lien). Évalué à 0.

    Par exemple en français, le mot 'll' (deux L minsucule) est très peu probable, le mot correct est surement 'Il' (i majuscule, L minuscule).


    J'ai comme un doute... ;-)

    nouille, couille, femelle, voyelle, chamelle, pelle, selle, anticonstitutionnellement, gilles, elle, prunelle, castillan, mouiller, faillite, ailleurs, nouvelle, collège, syllabe, querelle, allemand, ville, réelle, traditionnellement, meilleur, belle, vieillard, quelle, pareille, partielle, oreille, celle, telle, paille, naturellement, bouteille, actuellement, actuelle, vieille, allonge, casuelle, personnelle, illusion, corneille, jumelles, famille, solennelle, rappelle, tellement, nulle, bruxelles, sexuelle, cellule, allaiter, allogame, pollinisation, ombellifère, aquarelle, feuille, rouille, brouillard, cagouille, caille, antilles, colle, vectorielle, collier, défourailler, vérouiller, habiller, échelle, polluant, allonger, barbouiller, folliculine, football, handball, quadriller, gaspillage, mille, million, milliard, salle, mollusque, maille, maillot, occasionnellement, superficielle, taille, travailleur, phallus, tatillon, vrille, excellent, parcelle, quille, embellir, roller, rougaille, échantillon, aller, écailles, laquelle, griller, vanille, alliage, camomille, etc.

    • [^]Re: pas de pbs avec gorc

      Posté par dany () le 08/07/2004 à 15:45. (lien). Évalué à 1.

      et si tu ajoutes un espace avant et après, ce qu'a probablement voulu dire l'auteur ?

      • [^]Re: pas de pbs avec gorc

        Posté par Nicolas Schoonbroodt (Jabber id, page perso, ) le 08/07/2004 à 15:56. (lien). Évalué à 3.

        Je pense aussi, car on à quand même rarement en français un I majuscule au millieu d'un mot ;) (je n'en trouve pas, mais sait-on jamais :D

        --
        [ Répondre ] Ce commentaire est-il impertinent ou utile ?

Projet

Posté par matiphas () le 08/07/2004 à 10:40. (lien). Évalué à 2.

C'est peut etre un projet a lancer.

Pour info, dans le linux mag, il y a un article tres interessant d'introduction a la reconnaissance des gestes et des formes, avec une bonne bibliographie (decidement cette serie d'article orientee AI est vraiment bien).

Christophe (touf) si ca te tente de te lancer la dedans, fais moi signe.
Perso ca m'interesse a mort.

Je pense qu'une bonne idee de base serait de recuperer le code de gocr et clara, et ensuite essayer de construire une API a partir de la.

Je pensais a une architecture de moteur pouvant faire le lien entre
- soit une interface specifique
- soit entre different programmes d'acquisition (sane/kooka...) et differents editeurs/traitements de texte

Pour info, algorithmiquement : gocr travaille sur la reconnaissance de particularites typographiques, clara se focalise sur l'apprentissage.

D'autres programmes peuvent etre tres interessants a regarder car n'etant pas tres eloignes du probleme (conversion bitmap vers vectoriel) : autotrace & potrace.

  • [^]Re: Projet

    Posté par lampapiertramol (page perso, ) le 08/07/2004 à 18:13. (lien). Évalué à 0.

    S'il vous plais n'encouragez pas la diffusion de ces technologies, elle permettraient entre de mauvaises mains de faire un bot caballiste pour voter sur linuxfr...

    • [^]Re: Projet

      Posté par Raphaël Gertz (Jabber id, page perso, ) le 26/07/2004 à 01:42. (lien). Évalué à 0.

      heuuu d'hab les pirates ont toujours de l'avance sur les protections...

      donc je pense que de toute façon si y en a un qui veut s'ammuser a faire un bot de vote automatique il peut l'avoir fait en deux trois mouvements...

      Et ce qu'on lui fille les liens ou non...

Et kooka?

Posté par ghunt (page perso, ) le 08/07/2004 à 12:19. (lien). Évalué à 2.

C'est un GUI pour Ocrad

http://www.kde.org/apps/kooka/(...)

J'ai survolé à l'époque ... ça avait pas l'air trop mal.

Mais il faut installer des truc KDE

commercial, pas libre et cher, mais efficace...

Posté par Nicolas Bernard (page perso, ) le 11/07/2004 à 15:54. (lien). Évalué à 2.

Le moteur d'omnipage pour linux: http://www.vividata.com(...)

Revenir en haut de page