Forum général.cherche-logiciel site de reconnaissance ocr, vs tesseract?
bonjour
j'ai découvert ce weekend un peu par hasard conv3rti0 (sans vouloir faire de pub) pour "extraire" la partie texte de quelques pages imprimées il y a un certain temps
le résultat est bluffant ; je m'interroge, commnent cela fonctionne?
j'ai bien vu le résultat de tesseract, qui s'en sort pas trop mal, mais pour des textes bien clairs, et malheureusement la mise en forme est rarement de mise.
je m'interroge donc : y a t-il un équivalent à ce (…)
Forum général.cherche-logiciel cherche logiciel d'OCR
bonjour
je cherche un logiciel qui serait multipalteformes au possible, et qui permettrait, sans internet/navigateur, d'extraire le texte d'une image/photo, si cela est possible?
en connaissez vous un?
merci
Lien Les logiciels de manipulation de PDF sous Linux: annoter, signer numériquement, OCR, couper
Forum général.cherche-logiciel Logiciel pour traiter automatiquement des questionnaires papiers
Bonjour,
dans le cadre de mes recherches de terrain, je souhaite faire circuler des questionnaires aux gens, et ensuite pouvoir reconnaitre automatiquement leur contenu.
J'ai vu le logiciel AMC (https://www.auto-multiple-choice.net/index.fr), qui en le détournant un peu, pourrait en partie faire le travail, mais comme je souhaiterais avoir des champs textes également, l'outil risque d'être un peu limité.
Je réfléchis également à mettre en place un traitement automatisé via Python. Si vous avez des suggestions à ce niveau, je (…)
Forum général.cherche-logiciel Reconnaissance optique
Bonjour,
Mon problème :
J'ai un mode d'emploi d'un appareil en italien (langue que je ne connais pas) et impossible de m'en procurer en français ou en anglais.
Alors j'ai eu l'idée de numériser le mode d'emploi, d'en faire une reconnaissance optique et de soumettre le résultat à un traducteur automatique, même si le résultat est approximatif, je pourrais me débrouiller.
Ce qui me manque, c'est le logiciel OCR sous Linux, libre bien entendu. C'est un domaine que je ne (…)
Journal Scanner et OCR sans passer par le cloud
Salut Nal,
Je vais avoir besoin de régulièrement scanner des documents pour les transformer en texte sur un ordi Linux.
Je suis donc à la recherche d’une solution qui me permette de facilement scanner et faire de l’OCR. J’aimerais que le résultat soit transmis sous forme de texte brut.
Cependant, je me rends compte que beaucoup de solutions utilisent le cloud or cette solution doit pouvoir fonctionner avec une connexion Internet très intermittente. Par contre, la création d’un réseau local (…)
Lien Internet Archive passe au logiciel libre pour numériser livres et journaux du XIXe siècle
Forum Linux.général Extraction de données de factures fournisseurs
Bonjour, je suis à la recherche d'un outil (logiciel, librairie) pour extraire les données de factures pour import dans Dolibarr. Je cherche une solution qui n'oblige pas à déterminer des zones de traitement OCR. Je vous remercie de votre aide sur ce sujet. Hélène
Forum général.cherche-logiciel OCR sur des factures en PDF et tableau
Bonjour,
J'essaye de mettre en place l'import automatique de facture fournisseur dans mon CRM (Dolibarr)
J'uilise actuellement pdf2json pour récupérer les infos du pdf et ensuite je traite tout via du php dans Dolibarr. C'est pas pratique, ça ne fonctionne pas à tout les coups, je cherche donc une solution de remplacement.
La difficulté est de suivre le formatage du pdf source et en particulier les tableaux (changement de ligne, de colonne, dimensions différentes suivant les factures pour un même (…)
Paperwork 1.1
Paperwork est un programme de gestion de documents personnels (papiers et PDF) conçu par un flemmard pour les flemmards. Il s’agit d’une interface graphique conçue avec une idée en tête : « scan & forget » (« numériser et puis voilà fini »). Lire, trier et indexer les papiers est un travail de machine, pas d’humain.
Cette nouvelle version inclut principalement des optimisations et quelques corrections de bogues. Une version pour Windows est également disponible. Plus de détails se trouvent en seconde partie.
Paperwork 1.0
Paperwork est un programme de gestion de documents papiers (et PDF) conçu par un flemmard pour les flemmards. Il s’agit d’une interface graphique conçue avec une idée en tête : « scan & forget » (« numériser et puis voilà fini »). Lire, trier et indexer les papiers est un travail de machine, pas d’humain.
Journal Reconnaissance d'écriture à main levée
Bonjour Nal,
Quelques mots pour signaler que PhatWare, société éditrice de logiciels de reconnaissance d'écriture à main levée, et de prises de notes, vient de libérer le moteur de son logiciel phare « WritePad ». Logiciel permettant d'écrire à main levée sur une surface tactile, ou bien avec un stylet, et qui assure une reconnaissance de caractères afin de transposer l'écriture à main levée en texte.
« WritePad Handwriting Recognition Engine » est désormais disponible, sous licence GPLv3, pour GNU/Linux, Android (…)
Financement participatif de HandyDV Linux et sa machine à lire
NdM. : contenu réécrit suite à une purge de compte, sur demande de la personne détentrice
Le projet HandyDVLinux (renommé depuis AccessDVLinux) vise à fournir une distribution GNU-Linux permettant de transformer un ordinosaure et un scanner en machine à lire. Un financement participatif a été lancé sur Ulule, pour avancer sur ce domaine de la mal-voyance.
L'idée est de permettre, par une combinaison de touches et en étant guidé par les messages audio de l'ordinateur, de déclencher une numérisation avec reconnaissance de caractères, d'ouvrir le document avec le bon logiciel et de le faire lire automatiquement. Plusieurs voix seraient disponibles, ainsi que la possibilité de relire au besoin, d'épeler, d'enregistrer, etc.
GNU/Linux a son OCR de qualité
Un des grands reproches faits aux systèmes GNU/Linux par les utilisateurs déficients visuels était l'absence d'un logiciel de reconnaissance optique de caractères (OCR). Après avoir simplifié l'accès à GNU/Linux et avant d'y avoir implémenté des synthèses vocales de haut niveau, la société Hypra a résolu la question de l'OCR. En partenariat avec l'entreprise Abbyy, elle propose désormais un outil pour reconnaître les documents images issus du Web ou les documents numérisés et afficher leur contenu dans LibreOffice plutôt que dans un visionneur d'images.
L'outil est fourni sous forme d'un binaire. Puis chacun peut le lancer en ligne de commande. Pour ceux qui ont MATE et qui veulent du très simple, Hypra fournit un paquet Debian, installable sur tous systèmes. Il ajoute l'entrée au menu contextuel de caja, le gestionnaire de fichiers. Hypra fournit aussi, avec le paquet, la ligne à ajouter à ses raccourcis pour lancer le scanner par simple raccourci clavier (fonctionne sur tous les bureaux). Ce dispositif installé en fait la suite OCR la plus simple du monde PC puisqu'un raccourci ou une commande du menu contextuel suffit à lancer le scanner, la reconnaissance et l'affichage dans LibreOffice. Avec stockage des images.
Enfin, précisons que l'outil est bien sûr disponible dans le Système à Accès Universel.
Et le prix? Il est vendu 150€. Légèrement moins cher que Nuance OmniPage ou Abbyy FineReader (tous deux propriétaires) sous Windows dans leur version complète, il est la seule offre illimitée, sur GNU/Linux, à ce prix. Jusqu'ici Abbyy proposait simplement une version en ligne de commandes limitée à 12000 pages par an. La version illimitée coûtait 3000 €. C'est donc un bon début insufflé par cette entreprise sociale et solidaire, qui contribue à rendre le monde du libre accessible à tous en retirant les barrières à l'entrée.
NdM.: il est ici question d'une couche d'interface libre pour ajouter la gestion d'un moteur OCR propriétaire à ocrizer. Il existe par ailleurs d'autres moteurs libres d'OCR, plus ou moins avancés et/ou maintenus.
$ dpkg --info ocrizer-finereader_0.1.4-8_all.deb
(...)
Section: contrib/graphics
(...)
Description: Finereader engine support for ocrizer
This package installs the glue between the abby proprietary command line tool
and ocrizer, and makes finereader an available engine.