Journal Reconnaissance d'écriture à main levée

34
15
oct.
2016

Bonjour Nal,

Quelques mots pour signaler que PhatWare, société éditrice de logiciels de reconnaissance d'écriture à main levée, et de prises de notes, vient de libérer le moteur de son logiciel phare « WritePad ». Logiciel permettant d'écrire à main levée sur une surface tactile, ou bien avec un stylet, et qui assure une reconnaissance de caractères afin de transposer l'écriture à main levée en texte.

« WritePad Handwriting Recognition Engine » est désormais disponible, sous licence GPLv3, pour GNU/Linux, Android (…)

GNU ddrescue 1.14 et GNU Ocrad 0.21

Posté par  . Modéré par baud123.
26
14
jan.
2011
GNU
GNU ddrescue est un logiciel permettant de copier le contenu d'un fichier ou d'un disque vers une autre destination, tout en essayant au passage de résoudre les problèmes d'intégrité de données lorsqu'il rencontre des erreurs de lecture. Il permet notamment d'essayer de récupérer des données d'un disque dur défaillant ou d'un CD-ROM abîmé. La version 1.14 est sortie ce 12 janvier, apportant notamment les améliorations suivantes sous forme d'options :
  • -R, --reverse qui inverse le sens de la copie ;
  • -E, --max-error-rate qui arrête ddrescue lorsque la taille des erreurs augmente trop rapidement.


GNU Ocrad est un projet plus jeune, du même auteur que ddrescue, de logiciel et de bibliothèque de reconnaissance optique de caractères basé sur une méthode particulière d'extraction. Il a pour objectif de permettre de récupérer du texte dans toutes les langues connues en UTF-8 depuis une image, tout en sachant repérer les blocs et colonnes typiques des textes imprimés. La version 0.21 est sortie ce 11 janvier, améliorant sensiblement la qualité et la documentation de l'outil.

Journal [pub] MALODOS 1.3

25
19
juin
2012

Nombreux sont ceux qui, je le sait, attendaient fébrilement l'arrivée prochaine de la version 1.3 de MALODOS. qu'il soient satisfait, c'est enfin arrivé. Pour les autres, sachez que vous attendiez tout aussi fébrilement cette annonce, mais n'en n'aviez pas conscience, c'est tout.

Tout ça pour dire que j'annonce ici fièrement l'arrivée d'une nouvelle mouture de mon logiciel de gestion de document personnel, le mal nommé (mais je m'en fous) MALODOS.
Les plus attentifs d'entre vous se souviendront avec émotion des (…)

Journal Comment récupérer les sous-titres d'un enregistrement de la TNT: mini-tuto

17
12
avr.
2014

Bonjour,

Un petit journal pour vous expliquer comment récupérer les sous-titres DVB des chaînes télé françaises et les convertir sous forme d'un fichier texte srt. J'ai pas mal galéré, donc je me suis dit qu'un petit tuto pourrait être utile.

Pré-requis:

je suppose que vous avez un fichier .ts contenant la video et les sous-titres. Normalement, vlc ou totem sont capables d'afficher ces sous-titres.
Si vous découpez un fichier, attention au découpage, certains logiciels perdent la piste de sous-titres au (…)

Journal Scanners sous Linux : coma dépassé ?

Posté par  .
17
26
avr.
2009
J'ai eu l'occasion d'étudier un peu l'état des scanners ces derniers temps.

Le projet SANE = dernière mise à jour : février 2008. Il n'y a donc plus d'améliorations à faire ?

Le projet scanbuttond (gestion des boutons du scanner) = en léthargie depuis 2007. Mon vieux scanner basé sur Avision, qui devrait fonctionner avec, n'est pas reconnu par ce démon.

L'intégration correcte de Tesseract (OCR à peu près utilisable) dans les distributions : à faire.

J'ai vu ici même (…)

GNU/Linux a son OCR de qualité

Posté par  (site web personnel) . Édité par Benoît Sibaud, claudex et Nils Ratusznik. Modéré par ZeroHeure. Licence CC By‑SA.
10
12
juil.
2016
Bureautique

Un des grands reproches faits aux systèmes GNU/Linux par les utilisateurs déficients visuels était l'absence d'un logiciel de reconnaissance optique de caractères (OCR). Après avoir simplifié l'accès à GNU/Linux et avant d'y avoir implémenté des synthèses vocales de haut niveau, la société Hypra a résolu la question de l'OCR. En partenariat avec l'entreprise Abbyy, elle propose désormais un outil pour reconnaître les documents images issus du Web ou les documents numérisés et afficher leur contenu dans LibreOffice plutôt que dans un visionneur d'images.

L'outil est fourni sous forme d'un binaire. Puis chacun peut le lancer en ligne de commande. Pour ceux qui ont MATE et qui veulent du très simple, Hypra fournit un paquet Debian, installable sur tous systèmes. Il ajoute l'entrée au menu contextuel de caja, le gestionnaire de fichiers. Hypra fournit aussi, avec le paquet, la ligne à ajouter à ses raccourcis pour lancer le scanner par simple raccourci clavier (fonctionne sur tous les bureaux). Ce dispositif installé en fait la suite OCR la plus simple du monde PC puisqu'un raccourci ou une commande du menu contextuel suffit à lancer le scanner, la reconnaissance et l'affichage dans LibreOffice. Avec stockage des images.

Enfin, précisons que l'outil est bien sûr disponible dans le Système à Accès Universel.

Et le prix? Il est vendu 150€. Légèrement moins cher que Nuance OmniPage ou Abbyy FineReader (tous deux propriétaires) sous Windows dans leur version complète, il est la seule offre illimitée, sur GNU/Linux, à ce prix. Jusqu'ici Abbyy proposait simplement une version en ligne de commandes limitée à 12000 pages par an. La version illimitée coûtait 3000 €. C'est donc un bon début insufflé par cette entreprise sociale et solidaire, qui contribue à rendre le monde du libre accessible à tous en retirant les barrières à l'entrée.

NdM.: il est ici question d'une couche d'interface libre pour ajouter la gestion d'un moteur OCR propriétaire à ocrizer. Il existe par ailleurs d'autres moteurs libres d'OCR, plus ou moins avancés et/ou maintenus.

$ dpkg --info ocrizer-finereader_0.1.4-8_all.deb
(...)
 Section: contrib/graphics
(...)
 Description: Finereader engine support for ocrizer
  This package installs the glue between the abby proprietary command line tool
  and ocrizer, and makes finereader an available engine.

Journal [PUB] Sortie de MALODOS 1.0

10
7
avr.
2011

Bonjour a tous,
Comme je l'avais déjà signalé dans un ancien journal, je développe en ce moment un logiciel de GED(http://fr.wikipedia.org/wiki/Gestion_%C3%A9lectronique_des_documents) (Gestion Électronique de Document).
Après quelques itérations le logiciel me semble à présent mûr pour une utilisation réelle. Le code source, sous licence GNU GPL 3 est disponible ici ainsi qu'une ébauche de documentation ici

Je commence à présent à l'utiliser de et je n'ai pas encore trouvé de gros bugs (quelques détails quand même) (…)

Journal Scanner et OCR sans passer par le cloud

Posté par  (site web personnel, Mastodon) . Licence CC By‑SA.
8
2
mar.
2021

Salut Nal,

Je vais avoir besoin de régulièrement scanner des documents pour les transformer en texte sur un ordi Linux.

Je suis donc à la recherche d’une solution qui me permette de facilement scanner et faire de l’OCR. J’aimerais que le résultat soit transmis sous forme de texte brut.

Cependant, je me rends compte que beaucoup de solutions utilisent le cloud or cette solution doit pouvoir fonctionner avec une connexion Internet très intermittente. Par contre, la création d’un réseau local (…)

Forum Programmation.autre Lister les livres/DVD/... présents sur une étagère à partir d'une simple photos

6
26
oct.
2023

Salut,

Quand on commence à avoir beaucoup de livres/BD/DVD/… sur des étagères il devient galère de les ranger et surtout de savoir si on a une œuvre et où elle se trouve.

Pour simplifier et automatiser cette gestion des œuvres physiques je voulais prendre en photos chaque étagère et faire/utiliser un logiciel de reconnaissance de caractère pour lire les titre sur les tranches.

Pensez vous que ça soit faisable/facile et est-ce que ça existe déjà ?

Typiquement, est-ce que c'est (…)

Forum Linux.général Solution libre pour PDF "cherchable" (OCR) ?

2
18
nov.
2014

Bonjour,

Je cherche à savoir s'il est raisonnable d'espérer pouvoir compter sur une solution à base de logiciel libre pour ajouter automatiquement (traitement par lot) un calque textuel (via OCR) dans un PDF.

En gros, c'est une option que propose certains multifonction, nommé Searchable PDF. Cette option à un coût et ici, nous pension l'avoir négociée dans l'offre mais ce n'est pas le cas. Le prestataire demande un supplément, etc.

Lorsque nous scannons, un fichier PDF est placé dans un (…)

État des lieux de la reconnaissance de caractères libre (OCR)

Posté par  . Modéré par Nÿco.
0
25
mai
2007
Technologie
Un contributeur bénévole à Mandriva, Austin Acton, a pris le temps de tester toutes les solutions libres d'OCR (ou ROC pour Reconnaissance Optique de Caractères) disponibles, dans un article en anglais.

Pour les francophones, en voici une synthèse, l'article étant plus complet (avec à la clé, graphiques de comparaison et copies d'écran de chaque produit testé).

Les tests ont porté sur la phrase "The quick brown Métis jumped over the fluffy Finance Manager" permettant de tester quelques pièges classiques pour la reconnaissance, ainsi que les accents, le tout décliné :
  • en différentes polices, de différentes tailles
  • avec des scans en noir et blanc ainsi que nuances de gris
  • le tout à différentes résolutions (ce qui entre en ligne de compte plus qu'on ne pourrait le croire)

Journal Google et logiciel OCR Open Source

Posté par  (site web personnel) .
0
5
sept.
2006
Google a annoncé aujourd'hui avoir ouvert le code du logiciel Tesseract.
Celui ci est un logiciel de reconnaissance de caractères développé par HP entre 1985 et 1995. Ils ont corrigé quelques petits bugs avant de faire l'annonce.

Selon l'article, il s'agissait du meilleur logiciel d'OCR à son époque. Reste que c'était il y a 10 ans ... Depuis les logiciels d'OCR ont progressé, arrivent a détecter différents blocs de texte, les images etc...

Souhaitons longue vie à ce projet, il (…)

Reconnaissance optique de caractères avec OCRopus

Posté par  . Modéré par Mouns.
0
18
mai
2007
Technologie
Voilà un projet qu'il est nécessaire de mettre en lumière. OCRopus est un système d'analyse de document comprenant analyse de mise-en-page modulaire, reconnaissance optique de caractères modulaire tout cela en tenant compte de la langue.

OCRopus est né de deux projets de recherche : un lecteur d'écriture manuelle à haute performance développé dans le milieu des années 90 et utilisé par le US Census bureau et un projet d'analyse de mise-en-page de document à haute performance (évidemment) du team IUPR (Image Understanding and Pattern Recognition). Le projet a été lancé le 11 avril 2007 et est sponsorisé par Google. Il est mené par le professeur Thomas Breuel du centre de recherche allemand sur l'intelligence artificielle accompagné par des post-doctorants et des thésards.

Actuellement, le projet se base uniquement sur le moteur tesseract mais la conception modulaire du projet ouvre les portes à d'autres moteurs de reconnaissance optique de caractères tel hOCR.

Le projet compte sur les contributions de la communauté du logiciel libre pour implémenter le support de nouvelles langues, pour créer une application Gnome, intégrer la reconnaissance dans l'infrastructure de recherche du bureau Gnome, développer des outils divers et créer de nouveaux moteurs, etc.

Forum général.général Tests sur tesseract (OCR Open Source

Posté par  (site web personnel) .
0
18
juil.
2008
Bonsoir,

Souhaitant évaluer l'existant en matière d'OCR Open Source, j'ai procédé au test de tesseract via pytesser.

Résultat ici: http://www.robertviseur.be/news-20080717.php

Pas vraiment concluant, en fait. Il faut vraiment des grosses lettres bien espacées pour avoir une reconnaissance correcte...

Bref, je voudrais avoir votre avis sur ce test: est-ce que la technologie n'est vraiment pas au point, est-ce que je m'y prends mal, est-ce que tesseract est bien pour d'autres usages, etc?

Merci pour votre feedback!

Tesseract-OCR

Posté par  . Modéré par j.
0
7
oct.
2006
Technologie
Moteur de reconnaissance optique de caractères, Tesseract-OCR a été libéré en août 2006.

Historiquement, Tesseract a été créé en 1985 par Hewlett Packard et abandonné 10 ans plus tard. Conscient du potentiel de ce logiciel, il a récemment été décidé de le rendre disponible pour tout le monde en le publiant sous licence Apache v2.

Tesseract-OCR est loin d'être aussi performant que les logiciels propriétaires actuellement sur le marché, mais devient de fait le meilleur moteur de reconnaissance de caractères libre.