Derniers journaux de quzqo :
- [05/07@08:59] Marre du web conventionnel
- [16/06@08:22] Le téléchargement de mises à jour sous le coup d'un brevet
- [27/05@09:01] RAID + boot + LILO : mini-mini HOWTO
- [15/04@14:57] de Peer en Peer ?
- [08/04@08:54] LEN : comme si ça ne suffisait pas...
- [06/04@15:53] Promotion du Libre...
- [16/03@13:27] Serveur IMAP & mozilla-thunderbird
- [12/03@13:50] Et si nous mentions un peu...
- [08/03@09:52] Debian "minimaliste" sur Shuttle SN41G2
- [19/01@17:29] Formation Perl...
- [14/01@14:09] Memtest86+
- [08/01@17:05] ACPI et WOL à l'extinction
- [27/11@17:31] Système des platines DivX Kiss sous licence GPL
- [26/11@10:15] Nouvelle version du noyau Linux (2.6) le mois prochain
- [30/10@18:00] Reminder FAA
- [28/10@14:07] Olitec transforme vos prises de courant en port réseau
- [14/10@07:41] CD copy-control : quand la réalité rejoint la scène politique
- [24/09@13:16] La brevetabilité des logiciels approuvée !
- [19/09@07:53] Manifestation (salon...) & promotion du LL
- [08/09@16:51] ATI drivers : Catalyst 3.7 is out
Journal : Scanner & OCR
Posté par Quzqo () le 08 juillet 2004Si l'installation d'un scanner USB (du moins celui que j'ai testé : HP Scanjet 4300C) comme le paramétrage de Sane, ne posent de problème sous Linux, j'éprouve un peu de mal à trouver un logiciel d'OCR...
Jusqu'à maintenant, j'ai testé gocr et clara sans résultat probant.
Le premier me donne des résultats désastreux (même à partir d'un scan de texte typographié) et autant saisir à la main le texte scanné. D'ailleurs, existe-t-il pour gocr des possibilités d'apprentissage ? (j'en doute sachant que ça reste encore une version de développement)
Le second m'a paru im-bit-table et reste limité pour ce qui est des formats en entrée (n'accepte pas le format PNM de sane, seulement PBM et PGM je crois). Par ailleurs, clara ne parait pas pouvoir (en première approche) "OCRizer" une quelconque image sans passer par une phase d'apprentissage.
J'ai sans doute survolé ces deux logiciels mais j'avoue que la documentation trouvée reste bien maigre et exclusivement amglo-saxone.
Connaissez-vous des liens intéressants les concernant ?
D'autres logiciels libres d'OCR ?
Des équivalents commerciaux (au pire) "user-friendly" ?
Note aux admins : Excellent ce "Des journaux similaires ont été postés!" lors de la création d'un journal : BRAVO !
> Lire le journal (13 commentaires, moyenne: 1,9).
Coïncidence !
J'allais poster un journal sur l'OCR.
Ma problématique est différente : il s'agit de reconnaître du texte dans des images basses résolutions (un site où des images étaient utilisées à la place du texte et dont à présent il faut changer la charte :-<).
Pour le moment j'ai testé ocrad et gocr. J'ai de meilleurs résultats avec gocr mais avec le paramètre "-l 160" et des images en niveaux de gris (mercie ImageMagick).
Si quelqu'un a des retours d'expériences de ce type (ocr ligne de commande), je suis preneur.
ça manque
Il n'y a pas grand chose pour l'OCR. Le seul truc acceptable que j'ai trouvé pour être efficace, c'est d'utiliser "Simple OCR" sous wine, après avoir scanné avec sane.
Si quelqu'un connait un projet en cours pour faire un bon moteur au GPL d'OCR, merci de l'indiquer.
C'est dommage, car l'OCR peut utiliser des réseaux neuronaux et c'est (je trouve) le domaine le plus interessant de l'informatique.
En tout cas gocr est aussi une bibliothèque servant de surcouche à n'importe quel moteur d'OCR, qui devrait donc simplifier la vie d'éventuels créateurs de moteurs en les laissant se concentrer sur les algos. Pour ceux qui s'interessent aux réseaux neuronaux, il y a ça : http://www-ra.informatik.uni-tuebingen.de/SNNS/(...)
pas de pbs avec gorc
J'utilise assez souvent gorc ai j'ai pas eut bcp de problèmes. Il nous de mande de taper une fois chaque lettre pour contruire sa base de donnée, puis reconnait a peut près tout le reste. gorc en chie vraiment seulement si les charactère se touchent.
Le pricipal inconvéniant à gorc, c'est qu'il n'utilise pas de dictionnaire en interne, il a donc du mal à différencier certaine lettre tel que 'I' (i majuscule)
ou 'l' (L minuscule) , voir même 't'
Il apprait donc que beaucoup de mots sont incorrect, mais deux méthode combinés permettent de corriger ça assez rapidement :
1) Utiliser un script sed qui, en fonction de la langue, remplace les choses très improbable. Par exemple en français, le mot 'll' (deux L minsucule) est très peu probable, le mot correct est surement 'Il' (i majuscule, L minuscule).
Ce soit être en fonction de la langue car par exemple, en anglais, l'interprétation ci-dessus est inversé ( you'll <=> you will)
2) utiliser un dictionnaire tel que aspell ou ispell.
Pour automatiser tout ça, rien ne vaut un petit script. Le boulo de l'utilisateur consistera ensuite à taper une fois chaque lettre, puis à piloter ispell pour finir les dernières corrections.
Note pour gorc: il y a un paramêtre important qui définit une estimation de la taille des caractères, en bidouillant ce paramètre, on améliore nettement les résultats. Mais je ne peut donner de méthode pour optimser ce paramêtre :-(
-
[^]Re: pas de pbs avec gorc
Posté par o°Oo°Oo°o°O°Oo° o°Oo°Oo°o°O°Oo° () le 08/07/2004 à 15:33. (lien). Évalué à 0.Par exemple en français, le mot 'll' (deux L minsucule) est très peu probable, le mot correct est surement 'Il' (i majuscule, L minuscule).
J'ai comme un doute... ;-)
nouille, couille, femelle, voyelle, chamelle, pelle, selle, anticonstitutionnellement, gilles, elle, prunelle, castillan, mouiller, faillite, ailleurs, nouvelle, collège, syllabe, querelle, allemand, ville, réelle, traditionnellement, meilleur, belle, vieillard, quelle, pareille, partielle, oreille, celle, telle, paille, naturellement, bouteille, actuellement, actuelle, vieille, allonge, casuelle, personnelle, illusion, corneille, jumelles, famille, solennelle, rappelle, tellement, nulle, bruxelles, sexuelle, cellule, allaiter, allogame, pollinisation, ombellifère, aquarelle, feuille, rouille, brouillard, cagouille, caille, antilles, colle, vectorielle, collier, défourailler, vérouiller, habiller, échelle, polluant, allonger, barbouiller, folliculine, football, handball, quadriller, gaspillage, mille, million, milliard, salle, mollusque, maille, maillot, occasionnellement, superficielle, taille, travailleur, phallus, tatillon, vrille, excellent, parcelle, quille, embellir, roller, rougaille, échantillon, aller, écailles, laquelle, griller, vanille, alliage, camomille, etc.-
[^]Re: pas de pbs avec gorc
Posté par dany () le 08/07/2004 à 15:45. (lien). Évalué à 1.et si tu ajoutes un espace avant et après, ce qu'a probablement voulu dire l'auteur ?
-
[^]Re: pas de pbs avec gorc
Posté par Nicolas Schoonbroodt (Jabber id, page perso, ) le 08/07/2004 à 15:56. (lien). Évalué à 3.Je pense aussi, car on à quand même rarement en français un I majuscule au millieu d'un mot ;) (je n'en trouve pas, mais sait-on jamais :D
--
[ Répondre ] Ce commentaire est-il impertinent ou utile ?
-
-
Projet
C'est peut etre un projet a lancer.
Pour info, dans le linux mag, il y a un article tres interessant d'introduction a la reconnaissance des gestes et des formes, avec une bonne bibliographie (decidement cette serie d'article orientee AI est vraiment bien).
Christophe (touf) si ca te tente de te lancer la dedans, fais moi signe.
Perso ca m'interesse a mort.
Je pense qu'une bonne idee de base serait de recuperer le code de gocr et clara, et ensuite essayer de construire une API a partir de la.
Je pensais a une architecture de moteur pouvant faire le lien entre
- soit une interface specifique
- soit entre different programmes d'acquisition (sane/kooka...) et differents editeurs/traitements de texte
Pour info, algorithmiquement : gocr travaille sur la reconnaissance de particularites typographiques, clara se focalise sur l'apprentissage.
D'autres programmes peuvent etre tres interessants a regarder car n'etant pas tres eloignes du probleme (conversion bitmap vers vectoriel) : autotrace & potrace.
-
[^]Re: Projet
Posté par matiphas () le 08/07/2004 à 12:01. (lien). Évalué à 5.QQUes liens en tout genre sur les ocr libres ou de la doc les concernant :
gocr : http://jocr.sourceforge.net/links.html(...)
clara : http://www.claraocr.org/(...)
ocrad : http://www.gnu.org/software/ocrad/ocrad.html(...)
Une revue de deux ocr sous linux :
http://www.linuxworld.com/story/32641.htm(...)
Une page de reference (liens et docs):
http://www.linux-ocr.ekitap.gen.tr/(...)
Une FAQ:
http://www.cfar.umd.edu/~kia/ocr-faq.html(...)
et pele-mele (progs et docs) :
http://sourceforge.net/projects/lince/(...)
http://sourceforge.net/projects/kognition/(...)
http://sourceforge.net/projects/phpocr/(...)
http://sourceforge.net/projects/nocr/(...)
http://kuto.sourceforge.net/(...)
http://lem.eui.upm.es/ocre.html(...)
http://www.math.nwu.edu/~mlerma/locr/(...)
http://http.cs.berkeley.edu/~fateman/kathey/ocrchie.html(...)
http://documents.cfar.umd.edu/(...)
http://www.arrakis.es/~evaquero/ocr.html(...)
http://www.softwareprojects4u.com/ocr/(...)
ftp://ftp.csc.calpoly.edu/pub/ocr/(...)
http://dkc.mse.jhu.edu/gamera/(...)
http://www.pattern-lab.de/index_e.html(...)-
[^]Re: Projet
Posté par ccomb (Jabber id, page perso, ) le 09/07/2004 à 12:13. (lien). Évalué à 2.Allez, comme il faut bien un début à tout, commençons par de la recherche d'informations :
J'ai recopié tous ces liens sur mon wiki, il faudrait les explorer, en ajouter d'autres, et en extraire des infos à classer par catégories (API, algos, idées...)
http://ccomb.free.fr/wiki/wakka.php?wiki=OpCaRe(...)
-
-
[^]Re: Projet
Posté par lampapiertramol (page perso, ) le 08/07/2004 à 18:13. (lien). Évalué à 0.S'il vous plais n'encouragez pas la diffusion de ces technologies, elle permettraient entre de mauvaises mains de faire un bot caballiste pour voter sur linuxfr...
-
[^]Re: Projet
Posté par Raphaël Gertz (Jabber id, page perso, ) le 26/07/2004 à 01:42. (lien). Évalué à 0.heuuu d'hab les pirates ont toujours de l'avance sur les protections...
donc je pense que de toute façon si y en a un qui veut s'ammuser a faire un bot de vote automatique il peut l'avoir fait en deux trois mouvements...
Et ce qu'on lui fille les liens ou non...
-
Et kooka?
C'est un GUI pour Ocrad
http://www.kde.org/apps/kooka/(...)
J'ai survolé à l'époque ... ça avait pas l'air trop mal.
Mais il faut installer des truc KDE
commercial, pas libre et cher, mais efficace...
Le moteur d'omnipage pour linux: http://www.vividata.com(...)

Les journaux sont destinés à des informations qui ne sont pas suffisamment intéressantes
pour être validées en dépêche (sinon n'hésitez pas à proposer votre information en
dépêche), qui sont sans rapport avec Linux ou le libre, ou simplement pour donner votre
avis. Si vous désirez poser une question, merci d'utiliser 

Cette discussion est archivée, il n'est plus possible de laisser des commentaires.
Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.