Moteur de reconnaissance optique de caractères, Tesseract-OCR a été libéré en août 2006.
Historiquement, Tesseract a été créé en 1985 par Hewlett Packard et abandonné 10 ans plus tard. Conscient du potentiel de ce logiciel, il a récemment été décidé de le rendre disponible pour tout le monde en le publiant sous licence Apache v2.
Tesseract-OCR est loin d'être aussi performant que les logiciels propriétaires actuellement sur le marché, mais devient de fait le meilleur moteur de reconnaissance de caractères libre.
Journal Google et logiciel OCR Open Source
Google a annoncé aujourd'hui avoir ouvert le code du logiciel Tesseract.
Celui ci est un logiciel de reconnaissance de caractères développé par HP entre 1985 et 1995. Ils ont corrigé quelques petits bugs avant de faire l'annonce.
Selon l'article, il s'agissait du meilleur logiciel d'OCR à son époque. Reste que c'était il y a 10 ans ... Depuis les logiciels d'OCR ont progressé, arrivent a détecter différents blocs de texte, les images etc...
Souhaitons longue vie à ce projet, il (…)
Celui ci est un logiciel de reconnaissance de caractères développé par HP entre 1985 et 1995. Ils ont corrigé quelques petits bugs avant de faire l'annonce.
Selon l'article, il s'agissait du meilleur logiciel d'OCR à son époque. Reste que c'était il y a 10 ans ... Depuis les logiciels d'OCR ont progressé, arrivent a détecter différents blocs de texte, les images etc...
Souhaitons longue vie à ce projet, il (…)