Forum général.cherche-logiciel Reconnaissance optique

Posté par  . Licence CC By‑SA.
Étiquettes :
1
1
juil.
2021

Bonjour,

Mon problème :

J'ai un mode d'emploi d'un appareil en italien (langue que je ne connais pas) et impossible de m'en procurer en français ou en anglais.

Alors j'ai eu l'idée de numériser le mode d'emploi, d'en faire une reconnaissance optique et de soumettre le résultat à un traducteur automatique, même si le résultat est approximatif, je pourrais me débrouiller.

Ce qui me manque, c'est le logiciel OCR sous Linux, libre bien entendu. C'est un domaine que je ne (…)

Journal Numérisation des documents administratifs avec métadonnées

Posté par  (site web personnel) .
Étiquettes :
0
7
avr.
2008
Salut,

Etant donné que je suis un bordélique irrécupérable mais que j'aimerais quand même ne pas perdre certains documents importants (fiches de salaires, contrats, factures, ...), je suis en train de réfléchir de la meilleure manière de numériser tout ça.

Au boulot, on a une imprimante/photocopieuse qui peut scanner des documents directement en PDF, c'est déjà un bon début.

Maintenant je me pose plusieurs questions :

- Les PDFs générés sont dans une vieille version du format, ne vaut-il pas (…)

Journal Google et logiciel OCR Open Source

Posté par  (site web personnel) .
0
5
sept.
2006
Google a annoncé aujourd'hui avoir ouvert le code du logiciel Tesseract.
Celui ci est un logiciel de reconnaissance de caractères développé par HP entre 1985 et 1995. Ils ont corrigé quelques petits bugs avant de faire l'annonce.

Selon l'article, il s'agissait du meilleur logiciel d'OCR à son époque. Reste que c'était il y a 10 ans ... Depuis les logiciels d'OCR ont progressé, arrivent a détecter différents blocs de texte, les images etc...

Souhaitons longue vie à ce projet, il (…)

Reconnaissance optique de caractères avec OCRopus

Posté par  . Modéré par Mouns.
0
18
mai
2007
Technologie
Voilà un projet qu'il est nécessaire de mettre en lumière. OCRopus est un système d'analyse de document comprenant analyse de mise-en-page modulaire, reconnaissance optique de caractères modulaire tout cela en tenant compte de la langue.

OCRopus est né de deux projets de recherche : un lecteur d'écriture manuelle à haute performance développé dans le milieu des années 90 et utilisé par le US Census bureau et un projet d'analyse de mise-en-page de document à haute performance (évidemment) du team IUPR (Image Understanding and Pattern Recognition). Le projet a été lancé le 11 avril 2007 et est sponsorisé par Google. Il est mené par le professeur Thomas Breuel du centre de recherche allemand sur l'intelligence artificielle accompagné par des post-doctorants et des thésards.

Actuellement, le projet se base uniquement sur le moteur tesseract mais la conception modulaire du projet ouvre les portes à d'autres moteurs de reconnaissance optique de caractères tel hOCR.

Le projet compte sur les contributions de la communauté du logiciel libre pour implémenter le support de nouvelles langues, pour créer une application Gnome, intégrer la reconnaissance dans l'infrastructure de recherche du bureau Gnome, développer des outils divers et créer de nouveaux moteurs, etc.

OCR sous Linux : comparatif

Posté par  . Modéré par Nÿco.
Étiquettes :
0
8
mar.
2003
Technologie
La reconnaissance optique de caractère (OCR en version anglaise) est un domaine méconnu du monde Linuxien. Pourtant il existe des solutions pour ceux qui veulent éviter la corvée de retaper les documents qu'ils désirent intégrer. Le site LinuxWorld a réalisé un essai comparatif de trois solutions: GOCR et Kooka (basé sur GOCR) qui sont libres et OCR Workshop qui est une solution propiriétaire.

État des lieux de la reconnaissance de caractères libre (OCR)

Posté par  . Modéré par Nÿco.
0
25
mai
2007
Technologie
Un contributeur bénévole à Mandriva, Austin Acton, a pris le temps de tester toutes les solutions libres d'OCR (ou ROC pour Reconnaissance Optique de Caractères) disponibles, dans un article en anglais.

Pour les francophones, en voici une synthèse, l'article étant plus complet (avec à la clé, graphiques de comparaison et copies d'écran de chaque produit testé).

Les tests ont porté sur la phrase "The quick brown Métis jumped over the fluffy Finance Manager" permettant de tester quelques pièges classiques pour la reconnaissance, ainsi que les accents, le tout décliné :
  • en différentes polices, de différentes tailles
  • avec des scans en noir et blanc ainsi que nuances de gris
  • le tout à différentes résolutions (ce qui entre en ligne de compte plus qu'on ne pourrait le croire)

Forum général.général Tests sur tesseract (OCR Open Source

Posté par  (site web personnel) .
0
18
juil.
2008
Bonsoir,

Souhaitant évaluer l'existant en matière d'OCR Open Source, j'ai procédé au test de tesseract via pytesser.

Résultat ici: http://www.robertviseur.be/news-20080717.php

Pas vraiment concluant, en fait. Il faut vraiment des grosses lettres bien espacées pour avoir une reconnaissance correcte...

Bref, je voudrais avoir votre avis sur ce test: est-ce que la technologie n'est vraiment pas au point, est-ce que je m'y prends mal, est-ce que tesseract est bien pour d'autres usages, etc?

Merci pour votre feedback!

Tesseract-OCR

Posté par  . Modéré par j.
0
7
oct.
2006
Technologie
Moteur de reconnaissance optique de caractères, Tesseract-OCR a été libéré en août 2006.

Historiquement, Tesseract a été créé en 1985 par Hewlett Packard et abandonné 10 ans plus tard. Conscient du potentiel de ce logiciel, il a récemment été décidé de le rendre disponible pour tout le monde en le publiant sous licence Apache v2.

Tesseract-OCR est loin d'être aussi performant que les logiciels propriétaires actuellement sur le marché, mais devient de fait le meilleur moteur de reconnaissance de caractères libre.

GNOME Scan 0.6 : vulgariser la numérisation

Posté par  . Modéré par Florent Zara.
0
11
mar.
2008
Gnome
Alors que GNOME print et maintenant GtkPrint offrent une solution efficace pour l'impression, simple tant pour le développeur que pour l'utilisateur, GNOME manque toujours cruellement d'une solution de numérisation en phase avec ses impératifs d'ergonomie, de simplicité, d'accessibilité et de modularité. Gnome Scan ambitionne de combler ce besoin et je vous propose d'en savoir (beaucoup) plus en lisant la suite de cet article.