GNU/Linux a son OCR de qualité

Posté par Texou (site web personnel) le 12 juillet 2016 à 11:16. Édité par Benoît Sibaud, claudex et Nils Ratusznik. Modéré par ZeroHeure. Licence CC By‑SA.

Étiquettes :

juil.

2016

Un des grands reproches faits aux systèmes GNU/Linux par les utilisateurs déficients visuels était l'absence d'un logiciel de reconnaissance optique de caractères (OCR). Après avoir simplifié l'accès à GNU/Linux et avant d'y avoir implémenté des synthèses vocales de haut niveau, la société Hypra a résolu la question de l'OCR. En partenariat avec l'entreprise Abbyy, elle propose désormais un outil pour reconnaître les documents images issus du Web ou les documents numérisés et afficher leur contenu dans LibreOffice plutôt que dans un visionneur d'images.

L'outil est fourni sous forme d'un binaire. Puis chacun peut le lancer en ligne de commande. Pour ceux qui ont MATE et qui veulent du très simple, Hypra fournit un paquet Debian, installable sur tous systèmes. Il ajoute l'entrée au menu contextuel de caja, le gestionnaire de fichiers. Hypra fournit aussi, avec le paquet, la ligne à ajouter à ses raccourcis pour lancer le scanner par simple raccourci clavier (fonctionne sur tous les bureaux). Ce dispositif installé en fait la suite OCR la plus simple du monde PC puisqu'un raccourci ou une commande du menu contextuel suffit à lancer le scanner, la reconnaissance et l'affichage dans LibreOffice. Avec stockage des images.

Enfin, précisons que l'outil est bien sûr disponible dans le Système à Accès Universel.

Et le prix? Il est vendu 150€. Légèrement moins cher que Nuance OmniPage ou Abbyy FineReader (tous deux propriétaires) sous Windows dans leur version complète, il est la seule offre illimitée, sur GNU/Linux, à ce prix. Jusqu'ici Abbyy proposait simplement une version en ligne de commandes limitée à 12000 pages par an. La version illimitée coûtait 3000 €. C'est donc un bon début insufflé par cette entreprise sociale et solidaire, qui contribue à rendre le monde du libre accessible à tous en retirant les barrières à l'entrée.

NdM.: il est ici question d'une couche d'interface libre pour ajouter la gestion d'un moteur OCR propriétaire à ocrizer. Il existe par ailleurs d'autres moteurs libres d'OCR, plus ou moins avancés et/ou maintenus.

$ dpkg --info ocrizer-finereader_0.1.4-8_all.deb
(...)
 Section: contrib/graphics
(...)
 Description: Finereader engine support for ocrizer
  This package installs the glue between the abby proprietary command line tool
  and ocrizer, and makes finereader an available engine.

Aller plus loin

Site d'Hypra (1353 clics)
MATE (300 clics)

# Concrètement?

Posté par ʭ ☯ le 12 juillet 2016 à 12:34. Évalué à 10.

Malgré tous les détails donnés, je n'ai pas compris ce qu'est la solution à 150€ :
- un bout de logiciel libre pour utiliser facilement Abbyy en version limitée à 12k pages/an?
- un bout de logiciel propriétaire pour utiliser un autre OCR propriétaire?

⚓ À g'Auch TOUTE! http://afdgauch.online.fr
- [^] # Re: Concrètement?
  
  Posté par rogo le 12 juillet 2016 à 13:15. Évalué à 10.
  
  Un publi-reportage fournit rarement une information concrète, sans parler de sa fiabilité. Comme en plus le lien adjoint à la dépêche pointe vers le site commercial, il ne va pas être simple de trouver autre chose que du baratin peu crédible. Le modérateur a rajouté une phrase de contexte avec Wikipedia, mais ce n'est pas suffisant.
  
  Après avoir simplifié l'accès à GNU/Linux et avant d'y avoir implémenté des synthèses vocales de haut niveau, la société Hypra a résolu la question de l'OCR.
  
  Quand je lis une rodomontade de ce genre, publiée sans filtre en première page, le site baisse d'un cran dans mon estime. Moralité : toute confiance en un site web doit être minimale, il faut juger de chaque information au cas par cas, en fonction de la source et des croisements possibles. À mes yeux, cette dépêche ne vaut rien.
  - [^] # Re: Concrètement?
    
    Posté par ZeroHeure le 12 juillet 2016 à 13:38. Évalué à 10.
    
    Le site est ce que les contributeurs en font. Ce n'est pas un magazine animé par des journalistes.
    
    Les modérateurs n'ont pas toujours beaucoup plus d'information que les visiteurs sur les dépêches. En revanche, les acteurs du libre sont assez connus : on peut les croiser aux diverses manifestations. C'est le cas du petit groupe qui anime Hypra. La rédaction de leur dépêche est peut-être imparfaite, il n'empêche que cet outil représente une grosse avancée pour les handicapés à qui leur système s'adresse — cf la page d'accueil de leur site:
    
    Un système accessible à tous types de publics, quel que soit votre âge, votre handicap (…)
    
    "La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay
  - [^] # Re: Concrètement?
    
    Posté par Texou (site web personnel) le 13 juillet 2016 à 01:32. Évalué à 7.
    
    Bonjour,
    
    "Un publi-reportage fournit rarement une information concrète, sans parler de sa fiabilité. Comme en plus le lien adjoint à la dépêche pointe vers le site commercial, il ne va pas être simple de trouver autre chose que du baratin peu crédible. Le modérateur a rajouté une phrase de contexte avec Wikipedia, mais ce n'est pas suffisant."
    
    Non, mais si vous dialoguez, vous réussirez à vous faire une idée. Le BABA n'est-ce pas d'investiguer jusqu'au bout avant la critique acerbe? Par exemple, appelez-nous pour poser vos questions. Ou posez-les ici comme un lecteur l'a très bien fait. Je m'explique dans votre cas:
    Sur le site d'Abbyy, vous pouvez télécharger le produit pour GNU/Linux. Puis, obtenir une clé de test (100 pages pendant 1 mois). Puis, installer gratuitement les outils Hypra en matière d'OCR. Et tester. Et vous pourrez vous faire une idée, au-delà des déclarations (oui, le commercial rend alergique, pourtant c'est lui qui nourrirait les informaticiens pour que le logiciel libre ne reste pas une affaire d'initiés, et il le fait pour des logiciels d'infra).
    Commercial, transparence et éthique, c'est compatible.
    
    " Après avoir simplifié l'accès à GNU/Linux et avant d'y avoir implémenté des synthèses vocales de haut niveau, la société Hypra a résolu la question de l'OCR.
    
    Quand je lis une rodomontade de ce genre, publiée sans filtre en première page, le site baisse d'un cran dans mon estime."
    
    rodomontade? Cette phrase est fausse? Ou est-ce l'alergie à la mise en valeur du travail d'une équipe qui vous gêne? Si j'avais écrit ça et dit qu'une asso en était à l'origine, ça passerait mieux? Aller pour vous rassurer: aucun des actionnaires n'est payé depuis 1 an.
    
    Au fait, c'est quoi vos projets pour faire progresser l'inclusion numérique et/ou le logiciel libre (je pense qu'on va s'entendre sur notre militantisme commun pro libre)? Bravo si vous vivez sans activité commerciale d'ailleurs.
    
    Bien cordialement,
    - [^] # Re: Concrètement?
      
      Posté par freem le 13 juillet 2016 à 02:31. Évalué à 6.
      
      Non, mais si vous dialoguez, vous réussirez à vous faire une idée.
      
      Bienvenue sur linuxfr :)
      Vraiment, ici, les propos sont souvent acerbes, mais c'est un peu la culture du site. Il ne faut pas en prendre ombrage, et se concentrer sur le fond plutôt que sur la forme.
      
      D'ailleurs, en parlant de forme, plutôt que d'utiliser les " pour citer, il est possible d'utiliser > (comme dans un mail) ce qui permet une meilleure visualisation aux lecteurs.
      
      Aussi, le BABA… on comprend ce que tu veux dire, mais, en général on sépare les lettres et la syllabe, par exemple, B.A BA.
      
      Toujours en parlant de forme, la rédaction est un métier, dont la communication fait partie. C'est un métier complexe, et je pense qu'il est très difficile de s'adapter à des profils pointus comme la faune qui hante linuxfr.
      
      Ici, c'est peuplé de geeks, de nerds, de trolls et parfois même de gens normaux (aucun terme n'exclue les autres) ce qui rends les discussions assez… houleuses. Mais la mer, c'est plus beau quand ça bouge ;)
      Enfin, seulement quand on garde son calme, parce que quand on perds son contrôle, ça peut changer de couleur ;)
      - [^] # Re: Concrètement?
        
        Posté par Frank-N-Furter le 13 juillet 2016 à 10:39. Évalué à 5.
        
        des profils pointus comme la faune qui hante linuxfr.
        
        C’qu’il faut pas lire des fois…
        
        Depending on the time of day, the French go either way.
        
        [^] # Re: Concrètement?
        
        Posté par freem le 13 juillet 2016 à 16:15. Évalué à 5.
        
        Je n'ai pas qualifié de pointue la totalité de population, j'ai dis qu'il y en a (et j'en fait pas partie), et je pense que leur «densité» est supérieure à d'autres sites francophones tels clubic, ccm, ou autres.
        
        [^] # Re: Concrètement?
        
        Posté par thoasm le 14 juillet 2016 à 10:58. Évalué à 9.
        
        En matière de troll par exemple, on atteint des sommets d'expertise.
    - [^] # Re: Concrètement?
      
      Posté par guppy le 13 juillet 2016 à 10:38. Évalué à 8.
      
      Après avoir simplifié l'accès à GNU/Linux et avant d'y avoir implémenté des synthèses vocales de haut niveau, la société Hypra a résolu la question de l'OCR
      
      Quand je lis une rodomontade de ce genre, publiée sans filtre en première page, le site baisse d'un cran dans mon estime.
      
      rodomontade? Cette phrase est fausse? Ou est-ce l'alergie à la mise en valeur du travail d'une équipe qui vous gêne? Si j'avais écrit ça et dit qu'une asso en était à l'origine, ça passerait mieux? Aller pour vous rassurer: aucun des actionnaires n'est payé depuis 1 an.
      
      Oui cette phrase est fausse. Vous pensez vraiment avoir résolu la question de l'ocr sous linux ? Vous avez fait avancer les choses pour un public bien précis, c'est déjà très bien.
      
      Les gens ici savent déterminer d'eux mêmes les mérites de votre travail, vous n'avez pas besoin d'exagérer les choses et un langage trop commercial vous dessert sur cette plateforme.
    - [^] # Re: Concrètement?
      
      Posté par barmic le 13 juillet 2016 à 14:55. Évalué à 10.
      Après avoir simplifié l'accès à GNU/Linux et avant d'y avoir implémenté des synthèses vocales de haut niveau, la société Hypra a résolu la question de l'OCR.
      
      Quand je lis une rodomontade de ce genre, publiée sans filtre en première page, le site baisse d'un cran dans mon estime.
      
      odomontade? Cette phrase est fausse? Ou est-ce l'alergie à la mise en valeur du travail d'une équipe qui vous gêne? Si j'avais écrit ça et dit qu'une asso en était à l'origine, ça passerait mieux? Aller pour vous rassurer: aucun des actionnaires n'est payé depuis 1 an.
      
      Il y a une différence entre mettre en avant la qualité de son travail et affirmer avoir « résolu » des problèmes, sous-entendu de manière absolu. Genre c'est un sujet de recherche et Google utilise encore des humains pour un paquet de cas, mais vous vous avez résolu le problème. De la même manière la façon de parler des 2 premiers points donne l'impression que c'est un travail terminé. Moi je lis :
      
      Après avoir résolu P = NP et la décidabilité de la terminaison de programme, nous avons fini par raccommoder la physique quantique et relativiste.
      
      Je comprends :
      
      soit que vous n'avez pas compris de quoi il était question
      
      soit que vous cherchez à vous faire mousser
      
      Mais ça rend septique pour tout le reste.
      
      C'est pas plus simple d'être honnête ?
      
      Nous avons d'abord cherché à simplifier l'accès à GNU/Linux avec [machin], puis créé une solution de synthèse vocale, nous venons de sortir un moteur d'OCR.
      
      C'est factuel, ça ne cherche pas à vendre du rêve.
      
      Il n'y a pas de problème à être commercial, mais j'ose croire que commercial et mensonge/exagération sont 2 notions distinctes (je sais ce n'est pas le cas chez Oracle).
      
      Tous les contenus que j'écris ici sont sous licence CC0 (j'abandonne autant que possible mes droits d'auteur sur mes écrits)
    - [^] # Commentaire supprimé
      
      Posté par Anonyme le 16 juillet 2016 à 11:39. Évalué à -10.
      
      Ce commentaire a été supprimé par l’équipe de modération.
- [^] # Re: Concrètement?
  
  Posté par papap le 12 juillet 2016 à 14:17. Évalué à 10.
  
  Concrètement : ils ont fait bosser une boite déjà implantée sous Windows pour fournir un outil bien utile et bien pratique aux aveugles. Avant de se moquer,il faut savoir que les animateurs d'Hypra sont aveugles eux-mêmes. Et vu comme ils utilisent les ordinateurs,ça force le respect… Que ça soit libre, pas libre ou payant est franchement secondaire.
- [^] # Re: Concrètement?
  
  Posté par alexarnaud le 12 juillet 2016 à 18:43. Évalué à 10.
  
  Bonjour,
  
  il s'agit d'Abbyy en version illimitée, c'est-à-dire sans limite de page. Cette version comprend également une intégration dans l’environnent Mate avec le scan des documents via un clique droit.
  
  Bien à vous.
- [^] # Re: Concrètement?
  
  Posté par Texou (site web personnel) le 13 juillet 2016 à 01:18. Évalué à 10.
  
  Alors petit éclaircissement:
  - Hypra a fait un programme, libre, qui lance le scanner, lance l'OCR (qui peut être Tesseract), et lance LibreOffice. Ca c'est gratuit. Ce programme se lance par raccourci clavier ou par clic dans le menu contextuel de Caja.
  - Si vous prenez abbyy4linux version d'essai, Hypra a étendu son outil pour qu'il démar!e Finereader et non Tesseract. L'outil coûte en ligne 149E pour un volume annuel de 12000 pages.
  - Hypra fournit, pour ce prix, la clé de licence permettant à l'outil un fonctionnement sans limite.
  
  Pour l'utilisateur final/basique, il paie:
  - FineReader installé et la clé;
  - l'outil Hypra
  
  Le linuxien averti ne paiera que la clé de licence, le reste étant gratuit et à sa portée.
  
  Et si on a eu ce tarif, c'est qu'on marge 0 dessus! Sauf frais de gestion.
  
  Bien cordialement,
  - [^] # Re: Concrètement?
    
    Posté par ʭ ☯ le 14 juillet 2016 à 08:51. Évalué à 3.
    
    Merci c'est très clair maintenant!
    
    ⚓ À g'Auch TOUTE! http://afdgauch.online.fr
# quid de la reconnaissance vocale

Posté par Kytrix le 12 juillet 2016 à 13:50. Évalué à 6.

Bonjour,
Dans un registre similaire, je recherche un logiciel de reconnaissance vocale afin de faire de la dactylographie..
Il est vrai que dans le monde du libre, certains créneaux sont bien vides …

C'est bien que ça avance sur l'OCR !
- [^] # Re: quid de la reconnaissance vocale
  
  Posté par BAud (site web personnel) le 13 juillet 2016 à 21:53. Évalué à 3.
  reconnaissance vocale ou reconnaissance de la parole ?
  
  J'avais une page sur http://cookerspot.tuxfamily.org/wikka.php?wakka=ReconnaissanceVocale
  - cmusphinx est a priori le plus avancé
  - julius/julian étaient très prometteur et ont continué d'avancer (faudrait que je reregarde)
  - d'autres sont listés sur http://www.dev.voxforge.org/projects/Main/wiki/SpeechRecognitionEngines
  Un site régulièrement mis à jour sur la reconnaissance de la parole multi-locuteurs est http://www.voxforge.org/fr (c'est àmha un peu l'openstreetmap ou le wikipedia pour la parole…).
  Sinon tu peux passer par les tags de LinuxFr.org pour trouver des contenus abordant le sujet via https://linuxfr.org/tags/reconnaissance_parole/public et https://linuxfr.org/tags/reconnaissance_vocale/public
  
  N'hésite pas à nous tenir au courant de tes recherches (il n'est pas si difficile que cela de démarrer une dépêche dans l'espace de rédaction et l'alimenter au fur et à mesure :D).
# Tesseract-ocr

Posté par pleiades le 12 juillet 2016 à 14:18. Évalué à 10.

Je ne l'ai pas beaucoup utilisé, mais il y a tesseract-ocr qui est sous licence libre et qui est, selon ma petite expérience, un OCR "de qualité".

Créé par HP, je crois qu'il est maintenu par Google maintenant.

pl.
- [^] # Re: Tesseract-ocr
  
  Posté par davandg (site web personnel, Mastodon) le 12 juillet 2016 à 20:37. Évalué à 3.
  
  Tout à fait, tesseract a été repris par Google.
  
  En plus compliqué à utiliser, il y a ocropy.
  C'est aussi Google qui le fait et c'est basé sur du machine learning (c'est même du deep learning (utilisez ce terme pour convaincre votre chef que vous pouvez faire joujou avec)).
  Ils ont d'excellents résultats, même si tous les modèles entraînés ne sont pas fournies.
- [^] # Re: Tesseract-ocr
  
  Posté par ckiller le 12 juillet 2016 à 21:42. Évalué à 4.
  
  Pour avoir essayé, Abby est quand même d'un niveau largement supérieur. notamment pour le découpage des pages, et la reconnaissance dans les tableaux.
  - [^] # Re: Tesseract-ocr
    
    Posté par Larry Cow le 12 juillet 2016 à 23:33. Évalué à 3.
    
    Voui. Abbyy, c'est un peu la rolls en matière d'OCR. Et ça plait.
    
    Après, pour ceux qui préfèrent moins bon et plus libre, j'ai été très agréablement surpris par OCRmyPDF : https://github.com/jbarlow83/OCRmyPDF
    - [^] # Re: Tesseract-ocr
      
      Posté par gerfaut83 (site web personnel) le 13 juillet 2016 à 00:42. Évalué à 2.
      
      Lui-même basé sur Tesseract selon la documentation sur GitHub :
      - Uses Tesseract OCR engine
      - Supports the 39 languages recognized by Tesseract
- [^] # Re: Tesseract-ocr
  
  Posté par guppy le 13 juillet 2016 à 11:16. Évalué à 7.
  Il y a quelques temps j'ai eu besoin d'écrire un script qui détectait l'orientation d'un document scanné et le remettait automatiquement "dans le bon sens".
  
  Simple à faire, un passage d'ocr sur le document initial puis un second sur le document retourné à 180°. Le résultat comportant le plus de mots existants de plus de 4 lettres (pour éviter les artefacts) gagne.
  
  Du coup j'ai installé une bonne partie des ocr disponibles. Le meilleur (dans ces conditions précises) a été ocrad :
  - très peu de dépendances sous debian (libc6 libgcc1 libstdc++6, qui sont très probablement déjà installées)
  - très rapide (de l'ordre de la seconde pour une image de 3 millions de pixel en 300 dpi)
  - résultats parfait pour l'usage.
  
  Testé sur une vingtaine de milliers de document, il fonctionne impeccablement.
  
  Voici le script pour ceux que ça intéresse :
```
#!/bin/bash
# this script determines whether an image must be flipped by comparing the results
# of OCR on the image and the flipped image


show_help()
{
        echo "${0##*/} image1 [image2]..."
        exit 1
}

topbm()
{
        mimetype=$(file --brief --mime "$1" | cut -d';' -f1)
        case "$mimetype" in
                "image/x-ms-bmp")
                        bmptopnm --quiet "$1"
                        ;;
                "image/jpeg")
                        jpegtopnm --quiet "$1"
                        ;;
                "image/png")
                        pngtopnm --quiet "$1"
                        ;;
                * )
                        >&2 echo ${file}: Mime type "$mimetype" not supported
                        return 1
                        ;;
        esac
}

verbose=0
while getopts ":vh" opt
do
        case $opt in
                v)
                        verbose=$((verbose + 1))
                        ;;
                h)
                        show_help
                        exit 0
                        ;;
                \?)
                        >&2 echo "Invalid option: -$OPTARG"
                        show_help
                        exit 1
                        ;;
        esac
done

shift "$((OPTIND-1))"

pbmfile=$(mktemp)

for file in $*
do
        topbm "$file" > "$pbmfile"

        if [ $? -eq 0 ]
        then
                normal=$(ocrad -l "`{mathjax} pbmfile" | iconv -f iso8859-15 | hunspell -G | grep -v '[0-9]' | grep '[a-zA-Z]\`
                flipped=$(ocrad --transform=rotate180 -l "`{mathjax} pbmfile" | iconv -f iso8859-15 | hunspell -G | grep -v '[`
                if [ $flipped -gt $normal ]
                then
                        if [ $verbose -gt 0 ]
                        then
                                echo "$file : flip needed ($normal / $flipped)"
                        fi
                        mogrify -flip -flop "$file"
                fi
        fi
done

if [ -e "$pbmfile" ]
then
        rm "$pbmfile"
fi
```
  - [^] # Re: Tesseract-ocr
    
    Posté par rpnpif le 13 juillet 2016 à 14:33. Évalué à 2.
    
    Merci pour le script mais il est incomplet sur les lignes :
    
    normal=…
    flipped=…
    - [^] # Re: Tesseract-ocr
      
      Posté par guppy le 13 juillet 2016 à 16:42. Évalué à 1.
      Effectivement, voici les 2 lignes incomplètes :
      
      normal=$(ocrad -l "$pbmfile" | iconv -f iso8859-15 | hunspell -G | grep -v '[0-9]' | grep '[a-zA-Z]\{4\}' | wc -l) flipped=$(ocrad --transform=rotate180 -l "$pbmfile" | iconv -f iso8859-15 | hunspell -G | grep -v '[0-9]' | grep '[a-zA-Z]\{4\}' | wc -l)
      - [^] # Re: Tesseract-ocr
        
        Posté par BAud (site web personnel) le 13 juillet 2016 à 21:58. Évalué à 3.
        
        quelle licence pour ton script ? pourquoi ne pas le mettre sur un git public (tuxfamily ou framagit ou autre…) ?
        
        [^] # Re: Tesseract-ocr
        
        Posté par guppy le 14 juillet 2016 à 12:27. Évalué à 1.
        
        Pour la licence j'ai pas vraiment réfléchi à la question. GPL admettons.
        
        Quant au git public, tout simplement parce que ça prendrait du temps (trop pour un script plus petit que sa licence).
        
        [^] # Commentaire supprimé
        
        Posté par Anonyme le 16 juillet 2016 à 11:43. Évalué à -10.
        
        Ce commentaire a été supprimé par l’équipe de modération.
# Il y a une belle histoire là-dessous, mais elle est mal racontée

Posté par gasche le 12 juillet 2016 à 16:51. Évalué à 10.
Je pense que la rédaction de la dépêche ne permet pas de comprendre vraiment cette annonce et ce qu'elle a d'intéressant—en bonne ou en moins bonne nouvelle.

À première lecture pour une personne qui n'est pas familière avec les technologies d'accessibilité, on lit ceci: "La société Hypra résout l'OCR pour GNU/Linux en offrant un pont (en logiciel libre) à une version spéciale d'un bon logiciel propriétaire, pour la modique somme de 150€". Ça n'est pas exactement le rêve du libriste (qui rêve d'une résolution de l'OCR par une solution entièrement libre), et donc je trouve normal que la nouvelle soit accueillie assez tièdement.

Quand on regarde de plus près on voit qu'il y a une vraie histoire qui n'est pas racontée. Hypra est bien une boîte "sociale et solidaire" qui se présente comme travaillant sur l'accessibilité du libre, en faisant du libre, dans l'intérêt de tous. Dans une précédente dépêche Texou avait parlé du "PC à accès universel", avec en particulier un système de synthèse vocal venant du milieu universitaire, mais pas vraiment libre, et on sentait bien dans son commentaire une déception et un choix du compromis—le choix d'aller chercher une solution qui rend GNU/Linux utilisable aujourd'hui peut valoir le compromis d'avoir du code partiellement propriétaire pour cela.

Voilà les questions que je pose alors et auxquelles la dépêche aurait pu répondre:
- Pourquoi ce choix d'une solution OCR propriétaire ? J'imagine que les solutions libres ont été évaluées et ne répondent pas au besoin. Pouvez-vous en dire plus sur les candidats qui ont été considérés, la façon de les évaluer, et les manquements observés ? Quelle est la performance sur ces critères de la solution qui a été finalement choisie ?
- Quelle est la stratégie à long terme sur l'OCR, y a-t-il un espoir de solution libre à terme ?
Expliquer le processus de décision, et pas finalement annoncer le résultat final, permettrait aux gens de mieux comprendre les problématiques et les enjeux.
- [^] # Re: Il y a une belle histoire là-dessous, mais elle est mal racontée
  
  Posté par Texou (site web personnel) le 13 juillet 2016 à 01:08. Évalué à 8.
  
  Très juste et merci de me donner l'occasion de développer (j'aurais pu en seconde partie de dépêche mais avais besoin de mesurer l'intérêt des lecteurs).
  
  "À première lecture pour une personne qui n'est pas familière avec les technologies d'accessibilité, on lit ceci: "La société Hypra résout l'OCR pour GNU/Linux en offrant un pont (en logiciel libre) à une version spéciale d'un bon logiciel propriétaire, pour la modique somme de 150€". Ça n'est pas exactement le rêve du libriste (qui rêve d'une résolution de l'OCR par une solution entièrement libre), et donc je trouve normal que la nouvelle soit accueillie assez tièdement."
  
  Moi aussi. Belle occasion d'expliquer.
  
  "Quand on regarde de plus près on voit qu'il y a une vraie histoire qui n'est pas racontée. Hypra est bien une boîte "sociale et solidaire" qui se présente comme travaillant sur l'accessibilité du libre, en faisant du libre, dans l'intérêt de tous. Dans une précédente dépêche Texou avait parlé du "PC à accès universel", avec en particulier un système de synthèse vocal venant du milieu universitaire, mais pas vraiment libre, et on sentait bien dans son commentaire une déception et un choix du compromis—le choix d'aller chercher une solution qui rend GNU/Linux utilisable aujourd'hui peut valoir le compromis d'avoir du code partiellement propriétaire pour cela."
  
  C'est exactement la même démarche ici. Les utilisateurs déficients visuels, pour beaucoup, et dont un grand nombre est âgé, attendent de l'ordinateur une voix naturelle et un logiciel les aidant à lire leur courrier en toute autonomie. Pour la voix, nous avons Mbrola (même si ça ne résout pas tout). Nous allons d'ici la rentrée proposer plusieurs voix supplémentaires (non libres mais très naturelles). Cela sera l'occasion pour Hypra de développer les modules nécessaires, en libre, dans speech-dispatcher (comme il a çté fait pour Svox Pico ou Mbrola). Et de faire passer plus de personnes pour qui le libre serait une vraie chance à ces technologies! Eh oui, compromis obligatoire sur des techno aussi pointues, même si on ne s'en satisfera jamais éthiquement. Mais développer une synthèse requiert des compétences considérables qu'on n'a pas et cela nous empêche même de sous-traiter intelligemment.
  
  "Voilà les questions que je pose alors et auxquelles la dépêche aurait pu répondre:
  Pourquoi ce choix d'une solution OCR propriétaire ? J'imagine que les solutions libres ont été évaluées et ne répondent pas au besoin. Pouvez-vous en dire plus sur les candidats qui ont été considérés, la façon de les évaluer, et les manquements observés ? Quelle est la performance sur ces critères de la solution qui a été finalement choisie ? "Nous sommes partis de ce que les gens ont sur Windows. Quand on scanne un document, puis passe par l'OCR, le but est de connaître son contenu, et même l'essentiel de celui-ci. A savoir: une quitance, le montant du loyer. Un relevé, le solde, etc.
  Sur cette base d'usages, on a scanné un document, somme toute basique en termes d'usage (quitance de loyer) en 300dpi. Puis, on a testé:
  - tesseract: en ligne de commande, résultat seulement en txt, médiocre au global de l'OCR (l'essentiel n'y est pas). Impossible de contacter qui que ce soit travaillant sur cet outil.
  - gimagereader (utilise mais aide Tesseract pour qu'il travaille dans de bonnes conditions): mieux sur le résultat, mais génère un txt (or les gens veulent un .odt pour pouvoir montrer à des voyants une mise en forme conservée). Surtout, l'accessibilité de l'interface est très douteuse (pas de label sur les objets GTK, déplacements au clavier incertains). Testé avec une dame âgée débutante, échec total.
  - lios: Linux Intelligent OCR System. Difficultés ici à prendre en main l'interface. Résultat peu positif avec ce type de document
  - gocr: faible reconnaissance
  
  Dès lors, on a testé les outils propriétaires grand public disponibles sur GNU/Linux. Et évidemment, on est passé à plus de 80%, tableaux/cadres restitués, etc (impression d'inclusion des gens).
  
  Nous avons donc suivi une méthode usages, seule à garantir des actions à court terme. Sans cela, une analyse plus scientifique conduisait à un degré de précision/complexité académique mais qu'on n'aurait pas su traduire en usages quotidiens. Et ça débouchait sur: "eh oui les perf de l'OCR, c'est très compliqué".
  
  Certes, mais on en a un qui marche, que le public connaît, et compatible GNU/Linux. Let's go.
  
  " Quelle est la stratégie à long terme sur l'OCR, y a-t-il un espoir de solution libre à terme ?"
  
  Franchement je n'en sais rien. Les contacts qu'on a eu avec les labo ne nous ont pas encouragé. On nous a parlé de coûts pharamineux, aux résultats incertains et surtout, ils savaient travailler pour une reconnaissance "en cas spécifique". Le côté "fourre-tout" ne leur parlait jamais, or tel est notre besoin. Du coup ils exigeaient un niveau de scientificité qu'on n'a pas pu relier au besoin usage. Au final, j'en ai déduit que cette techno exigeait des professionnels ultrapointus et entre science et industrie. Donc si on s'y remet, ça sera avec un directeur de R&D proprement dit. Pas demain, d'autant qu'avant, d'énormes investissements sont requis côté basse vision (Compiz) et accessibilité de LibreOffice et maintien de MATE. Et c'est critique pour la suite. Pokr l'heure, j'ai vu le R, peu le D.
  
  A la rigueur, je serais plus optimiste sur la synthèse vocale que l'OCR, n'arrivant pas à m'approprier lesujet pour en faire un plan d'actions.
  
  "Expliquer le processus de décision, et pas finalement annoncer le résultat final, permettrait aux gens de mieux comprendre les problématiques et les enjeux."
  
  Merci de m'en donner l'occasion. Je suis ouvert à toute aide sur la question. Car ici, le problème n'est ni la licence, ni le brevet, c'est de la technique pure.
  
  Bien cordialement,
  - [^] # Re: Il y a une belle histoire là-dessous, mais elle est mal racontée
    
    Posté par freem le 13 juillet 2016 à 03:03. Évalué à 3.
    
    Nous avons donc suivi une méthode usages, seule à garantir des actions à court terme. Sans cela, une analyse plus scientifique conduisait à un degré de précision/complexité académique mais qu'on n'aurait pas su traduire en usages quotidiens. Et ça débouchait sur: "eh oui les perf de l'OCR, c'est très compliqué".
    
    Le noyau linux est lui-même parti de là, je pense. Le bazar plutôt que la cathédrale. Les cathédrales mettaient en avant les micro-noyaux qui devaient remplacer les noyaux monolithiques, mais un étudiant à juste fait un OS pour le fun, et de nos jours cet OS est à priori le plus utilisé du monde.
    La théorie à du bon, mais la pratique la vaincra toujours. Après tout, est-il plus simple d'améliorer un truc qui fonctionne, ou un projet dont il n'y a que les plans?
    Bref: courage et bonne chance.
    
    Pokr l'heure, j'ai vu le R, peu le D.
    
    Je n'ai pas compris? Ça sent la typo, mais je n'arrive pas à interpréter…
    
    Merci de m'en donner l'occasion. Je suis ouvert à toute aide sur la question. Car ici, le problème n'est ni la licence, ni le brevet, c'est de la technique pure.
    
    Je pense qu'en technique pure, il est plus que faisable de trouver des informations auprès des utilisateurs de systèmes libres (linux, *bsd, …) en général. Peut-être sur les mailing lists internationales, j'ai un assez bon souvenir de debian-users, avec des gens parfois très calés sur des sujets précis.
    
    Personnellement, je ne peux pas aider, mais j'ai toujours été intéressé par ce point. Comment les handicapés font-ils pour utiliser un ordinateur?
    Si une personne a des problèmes de vision (voire une absence), j'imagine qu'il «suffit» d'émettre «vocalement» le texte avec un certain, disons, protocole (pour la mise en forme). Peut-être même avec des machines qui «impriment» du braille? Mais comment faire pour rendre les logiciels et leurs interfaces simples à lire, justement?
    Et ce n'est que pour le côté réception de l'information. Certaines personnes n'ont pas nécessairement tous leurs membres, donc comment émettre quand l'on a qu'un seul bras (on va pas parler d'emacs… mouarf!) voire pire? Comment le logiciel utilisé peut-il faciliter sa prise en charge par les outils d'accessibilité?
    
    En général, je considère que les interfaces ncurses sont les plus simples à programmer et à utiliser, du fait qu'elles soient à la fois accessibles au clavier et à la souris.
    Pour un aveugle ou pour un manchot (je ne connais pas le terme politiquement correct…), je n'en ai aucune idée. Existe-t-il des méthodes de conception d'interface qui facilitent la reconnaissance ou la synthèse vocale?
    - [^] # Re: Il y a une belle histoire là-dessous, mais elle est mal racontée
      
      Posté par lolop (site web personnel) le 13 juillet 2016 à 08:45. Évalué à 3.
      
      Pokr l'heure, j'ai vu le R, peu le D.
      
      Je n'ai pas compris? Ça sent la typo, mais je n'arrive pas à interpréter…
      
      R&D: Recherche & Développement j'imagine.
      
      Votez les 30 juin et 7 juillet, en connaissance de cause. http://www.pointal.net/VotesDeputesRN
    - [^] # Re: Il y a une belle histoire là-dessous, mais elle est mal racontée
      
      Posté par NumOpen le 13 juillet 2016 à 09:39. Évalué à 3.
      
      Pour l'heure, j'ai vu la Recherche, peu le Développement.
      - [^] # Re: Il y a une belle histoire là-dessous, mais elle est mal racontée
        
        Posté par Texou (site web personnel) le 13 juillet 2016 à 12:08. Évalué à 2.
        
        On peut l'acheter ici:
        http://www.ocr4linux.com/en:pricing on distingue
        
        Avec téléchargement du binaire ici:
        http://www.ocr4linux.com/_media/abbyyocr-11.1.9.622165.tar.gz
        
        Et si on veut la clé de licence illimitée sur Linux, suffit de nous contacter.
        
        Bien cordialement,
        
        [^] # Re: Il y a une belle histoire là-dessous, mais elle est mal racontée
        
        Posté par ChristopheK le 15 juillet 2016 à 10:13. Évalué à 0.
        
        Ok, J'ai bien installé Abby mais rien compris pour la partie graphique ?
        
        J'ai aussi décompressé le .zip du module OCRIZER mais je ne sais pas quoi lancer ni comment ? Il y a une documentation d'installation ? Est ce bien le bon module pour faire le lien avec Finereader ?
        
        Merci
  - [^] # Re: Il y a une belle histoire là-dessous, mais elle est mal racontée
    
    Posté par ChristopheK le 13 juillet 2016 à 10:55. Évalué à 2.
    
    Bon, mais concrètement, quel est le lien pour acheter l'OCR d'ABBY à 150 € ?
    Peut on l'acheter pour son poste de travail Ubuntu ? Auprès de qui ?
    - [^] # Re: Il y a une belle histoire là-dessous, mais elle est mal racontée
      
      Posté par ZeroHeure le 13 juillet 2016 à 11:22. Évalué à 2.
      
      Sous Linux, Abby n'est pas prêt à l'emploi. On achète le SDK pour l'intégrer.
      
      "La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay
# Aussitôt sur Google News

Posté par ZeroHeure le 12 juillet 2016 à 17:11. Évalué à 3.

Sitôt publiée la dépêche s'est retrouvée sur Google News ce matin… Copie d'écran pour ceux que ça amusent (255 Ko)

"La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay
# OCR IRIS

Posté par carabao (site web personnel) le 30 août 2016 à 14:42. Évalué à 0. Dernière modification le 30 août 2016 à 14:43.

bonjour,

Avez-vous pensé au sdk de iris : http://www.irislink.com/c2-1096-189/iDRS-15.aspx ?

Je ne sais pas si c'est faisable avec cette solution et dans quelle condition. Je ne connais que la version win de ce programme, il est assez performant.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.