GNU/Linux a son OCR de qualité

Posté par  (site web personnel) . Édité par Benoît Sibaud, claudex et Nils Ratusznik. Modéré par ZeroHeure. Licence CC By‑SA.
10
12
juil.
2016
Bureautique

Un des grands reproches faits aux systèmes GNU/Linux par les utilisateurs déficients visuels était l'absence d'un logiciel de reconnaissance optique de caractères (OCR). Après avoir simplifié l'accès à GNU/Linux et avant d'y avoir implémenté des synthèses vocales de haut niveau, la société Hypra a résolu la question de l'OCR. En partenariat avec l'entreprise Abbyy, elle propose désormais un outil pour reconnaître les documents images issus du Web ou les documents numérisés et afficher leur contenu dans LibreOffice plutôt que dans un visionneur d'images.

L'outil est fourni sous forme d'un binaire. Puis chacun peut le lancer en ligne de commande. Pour ceux qui ont MATE et qui veulent du très simple, Hypra fournit un paquet Debian, installable sur tous systèmes. Il ajoute l'entrée au menu contextuel de caja, le gestionnaire de fichiers. Hypra fournit aussi, avec le paquet, la ligne à ajouter à ses raccourcis pour lancer le scanner par simple raccourci clavier (fonctionne sur tous les bureaux). Ce dispositif installé en fait la suite OCR la plus simple du monde PC puisqu'un raccourci ou une commande du menu contextuel suffit à lancer le scanner, la reconnaissance et l'affichage dans LibreOffice. Avec stockage des images.

Enfin, précisons que l'outil est bien sûr disponible dans le Système à Accès Universel.

Et le prix? Il est vendu 150€. Légèrement moins cher que Nuance OmniPage ou Abbyy FineReader (tous deux propriétaires) sous Windows dans leur version complète, il est la seule offre illimitée, sur GNU/Linux, à ce prix. Jusqu'ici Abbyy proposait simplement une version en ligne de commandes limitée à 12000 pages par an. La version illimitée coûtait 3000 €. C'est donc un bon début insufflé par cette entreprise sociale et solidaire, qui contribue à rendre le monde du libre accessible à tous en retirant les barrières à l'entrée.

NdM.: il est ici question d'une couche d'interface libre pour ajouter la gestion d'un moteur OCR propriétaire à ocrizer. Il existe par ailleurs d'autres moteurs libres d'OCR, plus ou moins avancés et/ou maintenus.

$ dpkg --info ocrizer-finereader_0.1.4-8_all.deb
(...)
 Section: contrib/graphics
(...)
 Description: Finereader engine support for ocrizer
  This package installs the glue between the abby proprietary command line tool
  and ocrizer, and makes finereader an available engine.

Sortie de Paperwork 0.1

Posté par  (site web personnel) . Édité par Xavier Teyssier et Benoît Sibaud. Modéré par patrick_g. Licence CC By‑SA.
59
13
août
2013
Bureautique

Après des années de R&D acharnée, trois arrêts cardiaques suite à des abus de caféine, et deux divorces, elle est finalement arrivée : la solution du parfait flemmard pour organiser ses documents papiers (ou pas) sous GNU/Linux. Paperwork est une interface graphique conçue avec une idée en tête : "scan&forget" (« numériser et puis voilà fini »). Lire, trier et indexer les papiers est un travail de machine, pas d'humain.

La version 0.1 a (enfin) été publiée.