Forum Linux.général Solution libre pour PDF "cherchable" (OCR) ?

2
18
nov.
2014

Bonjour,

Je cherche à savoir s'il est raisonnable d'espérer pouvoir compter sur une solution à base de logiciel libre pour ajouter automatiquement (traitement par lot) un calque textuel (via OCR) dans un PDF.

En gros, c'est une option que propose certains multifonction, nommé Searchable PDF. Cette option à un coût et ici, nous pension l'avoir négociée dans l'offre mais ce n'est pas le cas. Le prestataire demande un supplément, etc.

Lorsque nous scannons, un fichier PDF est placé dans un dossier partagé (Samba) sur un serveur GNU/Linux Debian. Et donc, je me disais qu'il y avait peut-être déjà une solution à base de logiciel libre pour passer l'image matricielles contenue dans le PDF dans un OCR (genre Tesseract, OCRopus ou GOCR) et ajouterait le texte obtenu au bon endroit comme un calque (layer en anglais) dans un nouveau fichier PDF, en plus de l'image (nouveau fichier). C'est ce que fait l'option payant dans le multifonction, sauf qu'ici, ça se ferait au niveau du multifonction.

Je cherche également par moi-même sur le web mais je trouve rien pour l'instant…, sauf les certaines pièces du puzzle (poppler-utils → pdfimage pour extraire l'image ; Tesseract pour l'OCR ; …) dans l'idée de créer un nouveau logiciel… Mais peut-être existe-t-il déjà ?

  • # Pour PDF, pas vu, mais pour DjVu

    Posté par (page perso) . Évalué à 4.

    Je ne connais rien de tel en libre pour du PDF, en revanche ça existe pour DjVu, avec le logiciel ocrodjvu.

    Et pour info, le résultat permet plus que seulement de la recherche, puisque cela permet également de faire du copier-coller.

  • # pdfsandwich

    Posté par . Évalué à 5. Dernière modification le 18/11/14 à 19:52.

    J'avais mis dans mes bookmarks le logiciel pdfsandwich il y a quelques années. Je ne sais pas ce qu'il donne. Si tu peux faire un retour…
    http://www.tobias-elze.de/pdfsandwich/index.html

    pdfsandwich generates "sandwich" OCR pdf files, i.e. pdf files which contain only images (no text) will be processed by optical character recognition (OCR) and the text will be added to each page invisibly "behind" the images.

  • # À décomposer

    Posté par (page perso) . Évalué à 2.

    Il y a deux besoins dans ta demande :

    • faire de l'extraction de données
    • construire le calque

    Pour la partie extraction je laisse ceux qui en savent plus que moi parler. Le second point dépend bien sûr de la qualité de l'extraction, mais est parfaitement possible avec les réserves suivantes :

    • jeu de police ttf pour lequel tu disposes d'un jeu complet
    • perte des notions de souligné dans le texte (dans un pdf, c'est un graphique en plus, mais est extérieur à la police)
    • positionnement approximatif des lettres : pas de crénage
    • Je suppose que le calque devrait effacer l'image en dessous pour éviter que la lettre ne se superpose ? Dans ce cas, il ne faut pas de font de page sur tes documents…

    À noter qu'il est possible de reproduire l'italique (c'est une transformation à appliquer au texte), mais c'est à tester au cas par cas.

    C'est parfaitement possible avec pdfbox (licence apache), mais demande beaucoup de boulot dans tous les cas. Je crois que tu ne trouveras pas de solution toute faite pour ça.

  • # Mal au dos

    Posté par (page perso) . Évalué à 5.

    Bonsoir,

    il me semble qu'il y a un logiciel, Malodos(?), dont l'objectif est de scanner en masse des documents, de les convertir en PDF, et d'en créer un index à partir de techniques de reconnaissances de caractères (OCR).

    En gros, ça correspondrait à tes besoins.

  • # Paperwork

    Posté par . Évalué à 6.

    Est-ce que Paperwork pourrait répondre à tes besoins ?
    Pour info, son développeur en parle ici : https://linuxfr.org/news/sortie-de-paperwork-0-2

  • # OCRmyPDF

    Posté par . Évalué à 3.

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.