Journal Scanners sous Linux : coma dépassé ?

Posté par  .
17
26
avr.
2009
J'ai eu l'occasion d'étudier un peu l'état des scanners ces derniers temps.

Le projet SANE = dernière mise à jour : février 2008. Il n'y a donc plus d'améliorations à faire ?

Le projet scanbuttond (gestion des boutons du scanner) = en léthargie depuis 2007. Mon vieux scanner basé sur Avision, qui devrait fonctionner avec, n'est pas reconnu par ce démon.

L'intégration correcte de Tesseract (OCR à peu près utilisable) dans les distributions : à faire.

J'ai vu ici même (…)

Journal Rebelote : Paperwork : cherche mainteneur Debian

17
4
août
2014

Bonjour cher 'Nal,

Vandegrift Ross s'était proposé pour packager et maintenir des paquets Debian pour Paperwork et quelques-unes de ses dépendances. Il n'a malheureusement plus le temps. Rodier André s'était proposé pour le remplacer. Mais il n'a finalement plus le temps non plus.

Ça m'embête, parce-que les paquets Debian, c'est un des points clés de mon plan de conquête du Monde. Du coup, il y a, à nouveau, un poste d'assistant de super-vilain qui s'est libéré. Avis (…)

Journal Paperless...

Posté par  . Licence CC By‑SA.
13
19
avr.
2013

Cher journal,

Plusieurs semaines de congés arrivant, j'aimerai entamer mon projet de numérisation de toute ma paperasse administrative qui me prend une place folle et d'envoyer tous ces bits indigestes vers mon NAS.
Pour la partie numérisation, j'avais pensé au DoxieGo qui me parait pas mal et surtout ne prend pas une place folle.
Mes interrogation viennent de la partie GED, j'avais pensé monter un Alfresco sur une VM mais j'ai peur que cela soit un peu "overkill", qu'en penses-tu ?

Journal [PUB] Sortie de MALODOS 1.0

10
7
avr.
2011

Bonjour a tous,
Comme je l'avais déjà signalé dans un ancien journal, je développe en ce moment un logiciel de GED(http://fr.wikipedia.org/wiki/Gestion_%C3%A9lectronique_des_documents) (Gestion Électronique de Document).
Après quelques itérations le logiciel me semble à présent mûr pour une utilisation réelle. Le code source, sous licence GNU GPL 3 est disponible ici ainsi qu'une ébauche de documentation ici

Je commence à présent à l'utiliser de et je n'ai pas encore trouvé de gros bugs (quelques détails quand même) (…)

GNU/Linux a son OCR de qualité

Posté par  (site web personnel) . Édité par Benoît Sibaud, claudex et Nils Ratusznik. Modéré par ZeroHeure. Licence CC By‑SA.
10
12
juil.
2016
Bureautique

Un des grands reproches faits aux systèmes GNU/Linux par les utilisateurs déficients visuels était l'absence d'un logiciel de reconnaissance optique de caractères (OCR). Après avoir simplifié l'accès à GNU/Linux et avant d'y avoir implémenté des synthèses vocales de haut niveau, la société Hypra a résolu la question de l'OCR. En partenariat avec l'entreprise Abbyy, elle propose désormais un outil pour reconnaître les documents images issus du Web ou les documents numérisés et afficher leur contenu dans LibreOffice plutôt que dans un visionneur d'images.

L'outil est fourni sous forme d'un binaire. Puis chacun peut le lancer en ligne de commande. Pour ceux qui ont MATE et qui veulent du très simple, Hypra fournit un paquet Debian, installable sur tous systèmes. Il ajoute l'entrée au menu contextuel de caja, le gestionnaire de fichiers. Hypra fournit aussi, avec le paquet, la ligne à ajouter à ses raccourcis pour lancer le scanner par simple raccourci clavier (fonctionne sur tous les bureaux). Ce dispositif installé en fait la suite OCR la plus simple du monde PC puisqu'un raccourci ou une commande du menu contextuel suffit à lancer le scanner, la reconnaissance et l'affichage dans LibreOffice. Avec stockage des images.

Enfin, précisons que l'outil est bien sûr disponible dans le Système à Accès Universel.

Et le prix? Il est vendu 150€. Légèrement moins cher que Nuance OmniPage ou Abbyy FineReader (tous deux propriétaires) sous Windows dans leur version complète, il est la seule offre illimitée, sur GNU/Linux, à ce prix. Jusqu'ici Abbyy proposait simplement une version en ligne de commandes limitée à 12000 pages par an. La version illimitée coûtait 3000 €. C'est donc un bon début insufflé par cette entreprise sociale et solidaire, qui contribue à rendre le monde du libre accessible à tous en retirant les barrières à l'entrée.

NdM.: il est ici question d'une couche d'interface libre pour ajouter la gestion d'un moteur OCR propriétaire à ocrizer. Il existe par ailleurs d'autres moteurs libres d'OCR, plus ou moins avancés et/ou maintenus.

$ dpkg --info ocrizer-finereader_0.1.4-8_all.deb
(...)
 Section: contrib/graphics
(...)
 Description: Finereader engine support for ocrizer
  This package installs the glue between the abby proprietary command line tool
  and ocrizer, and makes finereader an available engine.

Journal Scanner et OCR sans passer par le cloud

Posté par  (site web personnel, Mastodon) . Licence CC By‑SA.
8
2
mar.
2021

Salut Nal,

Je vais avoir besoin de régulièrement scanner des documents pour les transformer en texte sur un ordi Linux.

Je suis donc à la recherche d’une solution qui me permette de facilement scanner et faire de l’OCR. J’aimerais que le résultat soit transmis sous forme de texte brut.

Cependant, je me rends compte que beaucoup de solutions utilisent le cloud or cette solution doit pouvoir fonctionner avec une connexion Internet très intermittente. Par contre, la création d’un réseau local (…)

Forum général.cherche-logiciel OCR sur des factures en PDF et tableau

Posté par  . Licence CC By‑SA.
6
3
oct.
2019

Bonjour,

J'essaye de mettre en place l'import automatique de facture fournisseur dans mon CRM (Dolibarr)
J'uilise actuellement pdf2json pour récupérer les infos du pdf et ensuite je traite tout via du php dans Dolibarr. C'est pas pratique, ça ne fonctionne pas à tout les coups, je cherche donc une solution de remplacement.
La difficulté est de suivre le formatage du pdf source et en particulier les tableaux (changement de ligne, de colonne, dimensions différentes suivant les factures pour un même (…)

Forum général.cherche-logiciel site de reconnaissance ocr, vs tesseract?

Posté par  (Mastodon) . Licence CC By‑SA.
Étiquettes :
6
25
sept.
2023

bonjour

j'ai découvert ce weekend un peu par hasard conv3rti0 (sans vouloir faire de pub) pour "extraire" la partie texte de quelques pages imprimées il y a un certain temps
le résultat est bluffant ; je m'interroge, commnent cela fonctionne?
j'ai bien vu le résultat de tesseract, qui s'en sort pas trop mal, mais pour des textes bien clairs, et malheureusement la mise en forme est rarement de mise.

je m'interroge donc : y a t-il un équivalent à ce (…)

Forum général.cherche-logiciel Logiciel pour traiter automatiquement des questionnaires papiers

Posté par  (site web personnel) . Licence CC By‑SA.
3
23
fév.
2023

Bonjour,

dans le cadre de mes recherches de terrain, je souhaite faire circuler des questionnaires aux gens, et ensuite pouvoir reconnaitre automatiquement leur contenu.

J'ai vu le logiciel AMC (https://www.auto-multiple-choice.net/index.fr), qui en le détournant un peu, pourrait en partie faire le travail, mais comme je souhaiterais avoir des champs textes également, l'outil risque d'être un peu limité.

Je réfléchis également à mettre en place un traitement automatisé via Python. Si vous avez des suggestions à ce niveau, je (…)

Forum Programmation.java Numérisation et analyse de formulaires papier

Posté par  . Licence CC By‑SA.
Étiquettes :
3
27
oct.
2014

Bonjour,

J'ai déjà du remplir des formulaires n'utilisant (presque) que des cases à cocher et l'on m'avait donné pour consigne de bien noircir les cases pour faciliter le travail de la machine.

Je cherche donc une librairie Java qui permettrait d'analyser un scan d'un formulaire et de renvoyer l'état (coché ou non) des checkbox.

Avez-vous déjà utilisé un outil de ce type?
Sinon, par où dois-je commencer à chercher?

Forum Linux.général Extraction de données de factures fournisseurs

Posté par  . Licence CC By‑SA.
2
22
oct.
2019

Bonjour, je suis à la recherche d'un outil (logiciel, librairie) pour extraire les données de factures pour import dans Dolibarr. Je cherche une solution qui n'oblige pas à déterminer des zones de traitement OCR. Je vous remercie de votre aide sur ce sujet. Hélène

Forum Linux.général Solution libre pour PDF "cherchable" (OCR) ?

2
18
nov.
2014

Bonjour,

Je cherche à savoir s'il est raisonnable d'espérer pouvoir compter sur une solution à base de logiciel libre pour ajouter automatiquement (traitement par lot) un calque textuel (via OCR) dans un PDF.

En gros, c'est une option que propose certains multifonction, nommé Searchable PDF. Cette option à un coût et ici, nous pension l'avoir négociée dans l'offre mais ce n'est pas le cas. Le prestataire demande un supplément, etc.

Lorsque nous scannons, un fichier PDF est placé dans un (…)

Forum Linux.général Scanner mes cours: quels logiciels? scanner, OCR, gestion...

Posté par  (site web personnel) .
2
4
mai
2011

Salut à tous,

Mes cours prennent énormément de place dans mon placard, et j'aimerais les numériser pour de bon.

Je suis donc à la recherche de ce genre de choses:

  • un logiciel qui permette de scanner à la suite, sans avoir à réaliser tout le processus d'enregistrement de l'image qui vient d'être scannée (on fera ça plus tard...)
  • un éventuel logiciel d'OCR, pour les polycopiés: si il est possible de sortir un PDF avec texte sélectionnable, c'est le bonheur
  • un (…)