Faire un don ! | | style | statistiques | contactez-nous | plan | lettre d'information

Journal : Aperçu d'AbiScan

Posté par Étienne Bersac (Jabber id, page perso, ) le 06 août 2007
Salutations,

Malgré le manque de motivation, Gnome Scan poursuit son petit bonhomme de chemin (mais que veut dire cette expression?). J'ai implémenté AbiScan, un greffon pour AbiWord alliant Gnome Scan et OCRopus pour intégrer la ROC dans Abiword.

J'ai fait une petite vidéo du résultat : http://bersace03.free.fr/pub/Video/Gnome%20Scan/AbiScan+OCRo(...)

C'est super instable, super incomplet, super brouillion, mais l'idée est là. Si vous voulez tester plus avant, j'ai expliqué comment tester tout ça sur le blog de Gnome Scan (en anglais :/) : http://gnome-scan.blogspot.com/2007/08/abiscan-preview.html (liens et photos d'écran à la clef). C'est assez extrême (y'a 6 logiciels à installer depuis SVN et 3 patches à appliquer …). En gros, c'est pas pour la production =)

Les dév d'Abiword m'ont beaucoup aidé. Je n'avais jamais écrit une ligne de C++ et encore moins navigué dans l'API complexe d'AbiWord. Grâce à eux, j'ai pu m'en sortir en moins d'une semaine. Visiblement, ça les a un peu motivé la petite vidéo ^_^.

Cordialement,
Étienne.

> Lire le journal (6 commentaires, moyenne: 3,7).  

Vous avez demandé le commentaire #856617.

autres logiciels d'OCR

Posté par koxinga () le 06/08/2007 à 17:42. (lien). Évalué à 3.

Et est-ce que tu as prévu de faire fonctionner cela avec d'autres logiciels ?

Je n'ai jamais essayé moi-même et je sais que les critiques sur les projets libres existants n'étaient pas très enthousiastes (voir par exemple http://web.linuxfr.org/2007/05/25/22532.html).

Cependant, s'il existe toujours des limitations à OCRopus comme la non-reconnaissances des accents, est-ce que c'est envisageable de proposer une alternative comme GOCR ? (question peut-être stupide, je ne pense pas que GOCR ait été développé avec cette utilisation en tête)

  • [^]Re: autres logiciels d'OCR

    Posté par Étienne Bersac (Jabber id, page perso, ) le 06/08/2007 à 20:30. (lien). Évalué à 3.

    Salutation,

    OCRopus n'est pas un moteur de reconnaissance optique. C'est un logiciel de reconnaissance optique de caractère, de mise-en-page du document, de formattage couplé avec un dictionnaire et une correction dynamique basé sur de la statistique.

    Bref, c'est la couche au dessus de gocr, hocr, ocrad, claraocr, tesseract et tant d'autre. OCRopus se base actuellement sur tesseract, mais c'est prévu de pouvoir se basé sur n'importe lequel, dynamiquement. Il y a d'ailleur déjà des lien vers hocr (hébreux).

    Si ma mémoire est bonne, tesseract 2.0 est censé gérer les accent. Gocr le gère déjà, mais il n'est pas aussi fiable que tesseract.

    Actuellement, AbiScan se base sur Gnome Scan pour numériser, et passe le relai à ocropus via la ligne de commande (merci g_spawn_sync). Le but est qu'OCRopus ne fournisse pas seulement un utilitaire pour le shell, mais aussi une API avec interface Gnome pour prévisualiser/corriger/superviser le long travail de la reconnaissance optique de document.

    Donc AbiScan n'est qu'un pont entre Gnome Scan + OCRopus dans Abiword. Ça implique aussi que Gnome Scan ne gèrera pas la ROC directement et c'est pas plus mal : qu'est-ce que gthumb et f-spot en ont à faire de la ROC.

    OCRopus est très très très immature. C'est simple : y'a même pas de alpha1 ou quelques chose du genre. Y'a même pas l'infrastructure pour distribuer une archive (make distcheck ou équivalent), sinon j'aurai fournit un paquet debian. Mais ils ont une approche au dessus de celle des moteur ROC traditionnelle. Par exemple, si tu vois un test comparatif OCRopus/gocr, tu as le droit à une bonne tranche de rigolade.

    Voilà pour la mise au point. Je pense qu'il faudra que je blogue un jour là dessus pour clarifier la situation (c'est très frais ;-) ).

    Cordialement,
    Étienne.

    --
    E Ultreïa !