Forum Linux.debian/ubuntu Reconnaissance Optique de Caractères sous Linux

Posté par . Licence CC by-sa.
Tags : aucun
3
6
jan.
2020

Bonjour,

Je suis sous Debian 9.

La numérisation fonctionne très bien avec XSane et mon imprimante multifonction EPSON Stylus mais j'aurais besoin d'utiliser un scanner à main pour numériser un gros bouquin en anglais car il est trop épais pour le scanner de l'imprimante.

J'ai donc pensé acquérir un IRIScan Book5 qui, sur le papier (les pubs) semble performant mais je ne suis pas certain qu'il sera compatible avec Linux en ce qui concerne la Reconnaissance Optique de Caractères (OCR).

Quelqu'un(e) aurait-il (elle) des informations à ce sujet et des conseils à ma donner ?
Je l'en remercie par avance et souhaite une Bonne Année à tous !

Cordialement.

Pxf

  • # des bêtises de ma part ?

    Posté par . Évalué à 4 (+2/-0).

    l'OCR prend une image et détecte le texte present dans cette image, il convertit alors ce texte dans un format editable txt, word

    donc logiquement peut importe le scanner, tu scannes, ca fait des images que tu OCRises ensuite.

    avec un peu de change le logiciel OCR va pouvoir faire ca en une passe, tu scannes -> format texte direct

    donc scanner compatible avec linux => oui

    reste à chercher "OCR sous linux"

    • [^] # Re: des bêtises de ma part ?

      Posté par . Évalué à 1 (+1/-2). Dernière modification le 07/01/20 à 08:23.

      peu importe le scanner

      Oui, mais à condition qu'il marche sous Linux, je pense que c'était l'objet de sa question.

      La projet Sane (les backends de Xsane), a sa page de compatibilité. J'ai bien peur que le IRIScan Book5 n'en fasse pas partie…

      En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.

  • # Il semblerait que ça soit un scanner autonome ...

    Posté par . Évalué à 5 (+4/-0).

    Hello,
    après une recherche très rapide (https://search.lilo.org/results.php?q=IRIScan+Book5) je vois "ce scanner de livres fonctionne partout sans être connecté à un ordinateur" … et qu'il est livré avec une carte micro sd …

    En bref il semblerait que ce scanner stocke les fichiers jpeg ou pdf sur la sd card (source https://www.irislink.com/FR/c1648/IRIScan-Book-5---IRIScan-Book-5-Wifi---Scanneur-de-livres.aspx)

    Donc niveau compatibilité "scanner/linux" ça sent bon (du fait qu'il soit autonome), au pire tu peux copier les fichiers de la sdcard vers ton pc directement

    Ensuite pour ce qui est de faire de l'ocr sous linux on retourne sur les outils classiques d'OCR Linux.

    eric.linuxfr@sud-ouest.org

    • [^] # Re: Il semblerait que ça soit un scanner autonome ...

      Posté par . Évalué à 3 (+1/-0).

      J'ai un IrisScan (je sais plus lequel) Je confirme que ton intuition est bonne.

      1 - Tu scannes tout
      2 - Tu connecte comme une clef USB
      3 - Enjoy

      Je conseille tout de même après chaque scéance de scan, quand le scanner à main est en mode clef USB de créer un répertoire et de déplacer la scéance de scan en cours dedans sinon ça devient vite le bazar à la racine du scanner.

      En général les cartes SD fournies sont surdimensionnées pour un usage courant et on a tendance a tout garder dessus :P

  • # OCR en ligne de commande

    Posté par . Évalué à 1 (+0/-0). Dernière modification le 10/01/20 à 17:27.

    Pour l'OCR des images, je recommande tesseract, j'ai testé récemment parce que je devais traduire un bon gros contract en chinois fourni sous forme d'impression écran de smartphone (une bonne centaine de png, il y a des fous sur terre). J'ai été impressionné du résultat.
    Une ligne de bash et 20s plus tard, il reste juste à additionner les fichiers txt créés.

    Faut juste penser à installer le paquet correspondant à la langue (pas vraiment la langue d'ailleurs, plutôt le jeu de caractères de la langue de ton document. Dans mon cas chi_sim pour chinois simplifié) en plus du logiciel lui-même.

    • [^] # Commentaire supprimé

      Posté par . Évalué à 1 (+0/-0). Dernière modification le 11/01/20 à 11:28.

      Ce commentaire a été supprimé par l'équipe de modération.

  • # paperwork

    Posté par . Évalué à 1 (+0/-0).

    J’avais découvert un projet il y a quelques années sur LinuxFR. Et les résultats étaient plutôt bons. L’avantage, c’est que ça te fait en plus une interface graphique pour toute ta paperasse, avec un moteur de recherche full texte.
    Ça s’appelle paperwork

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.