Faire un don ! | | style | statistiques | contactez-nous | plan | lettre d'information

: État des lieux de la reconnaissance de caractères libre (OCR)

Posté par José JORGE (Jabber id, page perso, ). Modéré le 25 mai 2007.
Un contributeur bénévole à Mandriva, Austin Acton, a pris le temps de tester toutes les solutions libres d'OCR (ou ROC pour Reconnaissance Optique de Caractères) disponibles, dans un article en anglais.

Pour les francophones, en voici une synthèse, l'article étant plus complet (avec à la clé, graphiques de comparaison et copies d'écran de chaque produit testé).

Les tests ont porté sur la phrase "The quick brown Métis jumped over the fluffy Finance Manager" permettant de tester quelques pièges classiques pour la reconnaissance, ainsi que les accents, le tout décliné :
  • en différentes polices, de différentes tailles
  • avec des scans en noir et blanc ainsi que nuances de gris
  • le tout à différentes résolutions (ce qui entre en ligne de compte plus qu'on ne pourrait le croire)

> Lire la dépêche (28 commentaires, moyenne: 2,5).  

Vous avez demandé le commentaire #835439.

Très peu significatif

Posté par nimnim () le 25/05/2007 à 12:05. (lien). Évalué à 3.

C'est un peu rapide de conclure sur le test d'une phrase, sans aucun formattage, qui vient d'être imprimée sur du papier propre.

Dans la vraie vie on fait de la ROC sur des documents que l'on n'a pas en version électronique, qui sont passés par X fax/copieurs, ont des taches/marques/plis, ont été posés de travers à l'une des étapes, etc

De même déduire le support du Français à partir de la reconnaissance d'une lettre accentuée... MDR

Quand à faire de l'analyse de mise en page... si déjà on était capable de récupérer le texte de base proprement. Une analyse de mise en page partielle fait plus de travail que reformatter du simple texte manuellement.

  • [^]Re: Très peu significatif

    Posté par Pierre Jarillon (page perso, ) le 25/05/2007 à 13:03. (lien). Évalué à 3.

    Austin a fait un test rigoureux dans un cadre précis. Si tu ne trouves pas que ce soit assez, fais le !
    Austin Acton est aussi un passionné de musique. J'espère qu'il nous fera un ONR (Optical Notes Recognization) pour transformer une partition en code lilypond ;-)
    Son site est http://groundstate.ca/austin . J'ai aussi quelques photos de lui devant son ordinateur comme http://pjarillon.free.fr/docs/RMLL2004/Austin-Acton.jpg

    • [^]Re: Très peu significatif

      Posté par nimnim () le 25/05/2007 à 15:04. (lien). Évalué à 5.

      Le test est rigoureux je l'accorde. L'auteur est aussi visiblement sérieux et bien intentionné.

      Cela n'empêche pas le test de ne pas être significatif. Comme beaucoup de débutants (ce qu'Austin écrit clairement) l'auteur se laisse séduire par un test synthétique simple et extrapole des résultats qu'il n'aura pas dans une utilisation réelle.

      La simple vérité c'est que la ROC a été un échec commercial parce qu'elle n'était pas fiable (ce qui a conduit par exemple HP à abandonner puis libérer le moteur qui est devenu OCRopus). Les gros projets de numérisation mettent en ½uvre des moyens humains (correcteurs) et matériels (numériseurs performants) bien supérieurs à ce qu'un particulier peut trouver acceptable en temps ou en argent. Les petits projets de numérisation... je cherche mais je n'en vois pas.

      La ROC reste un gadget que les PME achètent avant de constater qu'elle n'est pas assez fiable pour leur être de la moindre utilité en pratique. (et ce n'est pas un problème de capteur, si on peur mettre des capteurs couleur dans les téléphones ça fait longtemps qu'on pourrait diffuser les capteurs N&B nécessaires à la ROC si les logiciels voulaient bien suivre)

      En outre, l'essentiel des développements a été concentré sur l'anglais, donc dès qu'on s'éloigne du latin non accentué les résultats déjà pas terribles se dégradent fortement (témoin ce test simpliste où un seul moteur reconnaissait le é. Et ce en l'absence de traces ou même d'autres lettres accentuées qui auraient pu le perturber).

      C'est triste mais les disciplines de traitement du langage naturel ont bénéficié depuis des années d'un traitement privilégié dans les universités et autres instituts informatiques, sans jamais donner de résultats à la hauteur de l'investissement.

      ROC, reconnaissance vocale, traduction automatique, la liste des casseroles est longue. Les ordinateurs n'ont pas les mêmes points forts que les êtres humains.

      Tout au plus arrive-t-on aujourd'hui à déchiffrer codes postaux et plaques d'immatriculation de manière à peu près fiable (à peu près, témoins les tracteurs qui ont reçu des contraventions autoroutières quand les radars automatiques ont été déployés)

      Un ONR marchera sans doute beaucoup mieux - les notations musicales présentent beaucoup moins de variabilité qu'un texte libre.

      • [^]Re: Très peu significatif

        Posté par baud123 (Jabber id, page perso, ) le 25/05/2007 à 18:30. (lien). Évalué à 2.

        C'est triste mais les disciplines de traitement du langage naturel ont bénéficié depuis des années d'un traitement privilégié dans les universités et autres instituts informatiques, sans jamais donner de résultats à la hauteur de l'investissement.

        Les correcteurs orthographiques ou de grammaire ? Un humain repasse derrière, ce qui permet de lui mettre en évidence certaines fautes (pas toutes effectivement).

        Il ne faudrait pas confondre l'objectif de la recherche, qui trouve les moyens de réaliser une solution ou fait des propositions, charge à d'autres d'implémenter, charge à d'autres d'industrialiser, charge à d'autre d'exploiter...
        Clairement, l'ordinateur en tant qu'outil montre son utilité, en tant qu'intelligence indépendante il est encore un bébé (avec une très grande mémoire exacte quand même...).

        De ce que j'en ai vu, la reconnaissance de caractère (ou de la parole) peuvent utiliser beaucoup d'heuristiques basées sur les probabilité d'avoir des lettres proches les unes des autres (ou des sons), donc bon ça demande un travail non négligeable (pour les di-plet, triplets, quadri-plets...) langue par langue.

        [^]Re: Très peu significatif

        Posté par Jak () le 26/05/2007 à 10:35. (lien). Évalué à 2.

        > Tout au plus arrive-t-on aujourd'hui à déchiffrer codes postaux et plaques d'immatriculation de manière à peu près fiable (à peu près, témoins les tracteurs qui ont reçu des contraventions autoroutières quand les radars automatiques ont été déployés)

        Ce n'était pas une erreur de lecture, le système lisait correctement les plaques, mais les forces de l'ordre ont repéré, grâce à ce type d'erreurs, un trafic de plaques d'immatriculation. Cela dit, comme la plaque d'immatriculation d'un véhicule agricole n'a pas le même format que les autres véhicules, il est aussi possible que ce soit à la lecture d'une plaque étrangère que ça ait foiré.

        --
        « Le savoir, n'est-ce pas, est un bien précieux. Trop précieux pour ne pas être partagé. »
        - Battologio d'Epanalepse, in De Cape et de Crocs, Acte VII (Ayroles & Masbou)

        [^]Re: Très peu significatif

        Posté par Laurent Morel () le 29/05/2007 à 20:08. (lien). Évalué à 2.

        Pour nuancer un peu :
        Le problème de la ROC est complexe, certes, et a mis des années à progresser. Mais aujourd'hui on peut dire que la reconnaissance des caractères imprimées est fiable -- pour un document de qualité bien évidemment, ce qui n'est pas toujours le cas, et jamais à 100%. Essaie un jour un logiciel comme abbyy fineReader, tu constateras des performances très bonnes, bien supérieures à celles de l'ancien logiciel hp aujourd'hui libéré.
        Maintenant il est clair que je ne vois pas trop l'usage qu'on peut faire de la ROC dans un bureau de PME : scanner des pages manuellement n'est pas pensable ; les gains n'apparaissent qu'en automatisant toute la numérisation/reconnaissance, ce qui nécessite des investissements importants.
        Je pense que la complexité du domaine et l'étroitesse des applications a limité les ambitions des programmeurs du libre. Rien que la construction d'une base d'apprentissage est un projet en soi. L'analyse du layout est un vaste domaine également, et si on se penche sur la segmentation (décomposer une ligne en mots, un mot en lettres), on sent vite des problèmes complexes apparaître... Finalement, la reconnaissance des lettres prises une par une paraît bien simple quand on prend la mesure du projet complet.

        Quant à la reconnaissance des partitions musicales, le problème est là encore plus complexe qu'il n'y paraît, sans doute davantage même que la reconnaissance de texte (mais tout dépend de la complexité et de la qualité de la partition). La thèse de Bertrand Couäsnon était en ligne autrefois, j'en conseille sa lecture aux intéressés : http://www.irisa.fr/imadoc/HTML/B..Couasnon.fr.html mais impossible de remettre un lien dessus ?!

        Tous ces problèmes sont résolus facilement par l'homme car ils nécessitent l'agrégation d'informations redondantes et disparates : toutes choses difficiles à formaliser pour l'ordinateur. La plupart des erreurs commises par les logiciels paraissent évidentes à l'humain ; pourtant si celui-ci doit expliquer les raisons de l'erreur, il va voir que ses explications vont chercher, au final, bien plus loin que ne peuvent "voir" les programmes.

        • [^]Re: Très peu significatif

          Posté par Frédéric Lopez () le 29/05/2007 à 22:08. (lien). Évalué à 2.

          Maintenant il est clair que je ne vois pas trop l'usage qu'on peut faire de la ROC dans un bureau de PME : scanner des pages manuellement n'est pas pensable ; les gains n'apparaissent qu'en automatisant toute la numérisation/reconnaissance, ce qui nécessite des investissements importants.

          Moi je vois plusieurs usages dans les PME pour de l'OCR un peu amélioré :
          - numérisation en masse de factures ou bons de commande pour les inclure automatiquement dans une gestion financière ;
          - reconnaissance et classement automatique de courrier ;
          - distribution automatique aux destinataires par messagerie ;
          - circuits de distribution et de validation informatisés via workflows ;
          - évolution vers le zéro papier ;
          - archivage légal automatique.

          On reçoit généralement des documents structurés de façon similaire (destinataire en haut à droite dans un courrier, format fixe pour les bons de commande, etc.), le reste pouvant être trié manuellement.

          Ça ne me semble pas nécessiter un investissement si important et ça peut être très utile dans une PME. D'ailleurs il existe pas mal de solution de ce type sur le marché. Pourquoi pas une solution libre ?

      [^]Re: Très peu significatif

      Posté par let antibarbie = xp <- xp - 1 (page perso, ) le 25/05/2007 à 16:02. (lien). Évalué à 2.

      A propos des reconnaissances de partitions musicales, j'ai déjà vu ça quelque part, et il faut croire que ça marche ! Ils bossent là dessus à l'Inria, dans le projet Imadoc.. je sais pas trop ce qui est publié de leurs travaux, mais en tout cas ils font des trucs vraiment très intéressants.

      Julien.