Reconnaissance optique de caractères avec OCRopus

Posté par . Modéré par Mouns.
0
18
mai
2007
Technologie
Voilà un projet qu'il est nécessaire de mettre en lumière. OCRopus est un système d'analyse de document comprenant analyse de mise-en-page modulaire, reconnaissance optique de caractères modulaire tout cela en tenant compte de la langue.

OCRopus est né de deux projets de recherche : un lecteur d'écriture manuelle à haute performance développé dans le milieu des années 90 et utilisé par le US Census bureau et un projet d'analyse de mise-en-page de document à haute performance (évidemment) du team IUPR (Image Understanding and Pattern Recognition). Le projet a été lancé le 11 avril 2007 et est sponsorisé par Google. Il est mené par le professeur Thomas Breuel du centre de recherche allemand sur l'intelligence artificielle accompagné par des post-doctorants et des thésards.

Actuellement, le projet se base uniquement sur le moteur tesseract mais la conception modulaire du projet ouvre les portes à d'autres moteurs de reconnaissance optique de caractères tel hOCR.

Le projet compte sur les contributions de la communauté du logiciel libre pour implémenter le support de nouvelles langues, pour créer une application Gnome, intégrer la reconnaissance dans l'infrastructure de recherche du bureau Gnome, développer des outils divers et créer de nouveaux moteurs, etc. Actuellement, les plateformes linux x86 et X86_64 sont ciblées, bien que le but soit à terme de tourner n'importe où. On notera les limitations dues à tesseract qui mélange allègrement les différentes normes C (C89, C99, ANSI C) et C++, sans se soucier de la portabilité. Le code de OCRopus est actuellement principalement du C++ avec du python tandis que système de compilation est jam. Les yeux se tournent vers lua comme langage de scriptage interne de choix.

Actuellement, un aperçu technologique est fourni sous licence Apache/MIT et le code source de OCRopus est disponible. Cette version préliminaire inclue Tesseract pour la ROC, RAST pour l'analyse de mise-en-page un outil de modélisation de langage basé sur aspell ainsi que des outils de tests. Le format de sortie serait du HTML avec des informations spécifique à l'OCR embarqué dans le HTML.

La première version alpha devrait débarquer durant le 3ème trimestre 2007. Cette version devrait inclure la distinction entre les images et le texte ; une modélisation du langage basé sur OpenFST ; le support de hOCR ; le détramage et autres pré-traitement de l'image. La première bêta suivra au premier trimestre 2008 avant la finale au troisième trimestre 2008.

À l'horizon post 1.0, se profile l'apprentissage à la volée, une interface web service, la reconnaissance depuis le format PDF, appareil photo ou écran , et d'autre avancées plus techniques.

Le projet se veut utile et fait donc un appel pour le support d'autres langues ; l'empaquetage pour Ubuntu, Debian, Fedora et d'autres plateformes ; des interfaces graphiques pour Gnome, Windows, Macintosh ; l'intégration dans les moteurs de recherche Beagle, Spotlight, Google Desktop Search …

Une fois de plus, Google promeut en acte le logiciel libre. Alors que l'OCR est un domaine où le libre a un très grand retard, la libération de tesseract et l'initiation de ce projet ouvre de réelles perspectives. De plus, les propriétés du logiciels libres s'appliquent afin de doper le développement : réutilisation de projet existant (tesseract, hocr, RAST, OpenFST, …), appel à contributions, mutualisation du développement, …

Gageons que la reconnaissance optique de caractères et son intégration dans les systèmes pourrait devenir un domaine où le libre réussirait à construire une avance sur le logiciel propriétaire, comme il en a dans bien d'autres domaines (sécurité, portabilité, système de paquets, thémabilité, live-cd…).
  • # Moi pointilleux? non......

    Posté par . Évalué à 10.

    Je vais faire mon pointilleux, mais j'aimerais savoir un truc: c'est la news ou ce sont les développeurs du projet qui appelle spécifiquement à faire une appli pour Gnome?
    Car je ne comprends pas trop ce détail: en quoi gnome est-il à privilégier par rapport à KDE (par ex. mais il en existe d'autres encore...)?

    En fait, c'est surtout ce passage qui me fait tilter:
    des interfaces graphiques pour Gnome, Windows, Macintosh ; l'intégration dans les moteurs de recherche Beagle, Spotlight, Google Desktop Search …

    Donc Gnome est un OS, au même titre que Windows et Mac? O_o
    Et Beagle n'est lui non plus pas le seul moteur de recherches existant sous Linux (mais là, je vais moins m'avancer: je ne connais pas trop ce domaine ni l'avancement des différents projets)....
    • [^] # Re: Moi pointilleux? non......

      Posté par . Évalué à 5.

      Sur le site du projet (premier lien) :
      Beyond 1.0 :
      [snip]
      - GUI frontends for Gnome, Windows, Macintosh


      C'est donc bien un choix des développeurs. Sûrement qu'ils préfèrent Gnome. Mais je suis sûr que si quelqu'un venait avec un frontend KDE, il le prendrait sans rechigner...
    • [^] # Re: Moi pointilleux? non......

      Posté par (page perso) . Évalué à 6.

      rooooooh... c'est pas possible d'etre tatillon a ce point...

      Tu t'es pas dis qu'une interface pour kde etait peut etre en projet donc ils cherchent qqn pour faire la meme chose pour gnome ?
      Et puis si tu lis l'annonce, ils parlent de gnome mais demandent ensuite "toutes sortes d'ajouts et d'outils pratiques" ce qui laisse le champ large pour ceux qui souhaitent aider.
      Note les "..." a la fin de la phrase que tu as cité, ca veut dire explicitement que la liste donnee n'est pas exhaustive.

      Et je pense que tout le monde aura compris qu'en mettant windows, macosx et gnome au meme niveau, l'auteur de l'article parlait des interfaces graphiques respectives a chacun des OS...

      Demander a ce que les articles soient précis, pas de probleme la dessus mais chipoter a ce point la, c'est pas franchement utile. D'autant plus que ca lance un ensemble de reponses (comme la mienne) chipotant chacune a leur tour sur des details infimes et ca detourne l'ensemble des lecteurs de l'information utile tout en noyant les commentaires qui apportent qqch au debat.

      Sinon, merci Etienne, ton article est tres bon.
      • [^] # Re: Moi pointilleux? non......

        Posté par . Évalué à 0.

        Quid de :

        « Actuellement, le projet se base uniquement sur le moteur tesseract mais la conception modulaire du projet ouvre les portes à d'autres moteurs de reconnaissance optique de caractère tel hOCR. »

        hOCR fait de la reconnaissance optique ? Parce que les autres copains du style gocr, ocrad ou clara ils sont un peu nazes.
    • [^] # Re: Moi pointilleux? non......

      Posté par . Évalué à 0.

      Gnome est un OS, au même titre que Windows et Mac?

      Tu as raison. S'ils ont trois sous de jugeotte, ils font ça en GNUStep et hop, ça tourne direct sous les trois environnements.
      • [^] # Re: Moi pointilleux? non......

        Posté par . Évalué à 4.

        Mouahahahah :)
        Je veux pas dire, mais même GTK arrive à mieux s'intégrer à Windows que GNUstep. Et une application Windows (via Wine) arrive mieux à s'intégrer à Gnome/KDE/XFCE/*box/*wm que GNUstep.
        En gros, GNUstep, c'est vachement sympa à programmer, mais niveau intégration, on repassera... D'ailleurs, c'est AMHA LA raison pour laquelle GNUstep n'arrive pas à décoller: d'un côté, les devs gnustep disent "osef de l'environnement de bureau et tout ça, gnustep n'est qu'un environnement de développement", et de l'autre aucun effort n'est fait pour essayer de s'intégrer où que ce soit (ha si, un peu sous OSX)
  • # j'ai trouvé

    Posté par . Évalué à 5.

    Et moi qui commençait à me troturer pour trouver comment intégrer l'OCR dans Gnome Scan, j'ai maintenant un projet parfait qui ne demande plus qu'à être intégré :).

    Étienne.

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.