Forum Linux.général Solution libre pour PDF "cherchable" (OCR) ?

Posté par Space_e_man (site web personnel) le 18 novembre 2014 à 16:59. Licence CC By‑SA.

Étiquettes :

nov.

2014

Bonjour,

Je cherche à savoir s'il est raisonnable d'espérer pouvoir compter sur une solution à base de logiciel libre pour ajouter automatiquement (traitement par lot) un calque textuel (via OCR) dans un PDF.

En gros, c'est une option que propose certains multifonction, nommé Searchable PDF. Cette option à un coût et ici, nous pension l'avoir négociée dans l'offre mais ce n'est pas le cas. Le prestataire demande un supplément, etc.

Lorsque nous scannons, un fichier PDF est placé dans un dossier partagé (Samba) sur un serveur GNU/Linux Debian. Et donc, je me disais qu'il y avait peut-être déjà une solution à base de logiciel libre pour passer l'image matricielles contenue dans le PDF dans un OCR (genre Tesseract, OCRopus ou GOCR) et ajouterait le texte obtenu au bon endroit comme un calque (layer en anglais) dans un nouveau fichier PDF, en plus de l'image (nouveau fichier). C'est ce que fait l'option payant dans le multifonction, sauf qu'ici, ça se ferait au niveau du multifonction.

Je cherche également par moi-même sur le web mais je trouve rien pour l'instant…, sauf les certaines pièces du puzzle (poppler-utils → pdfimage pour extraire l'image ; Tesseract pour l'OCR ; …) dans l'idée de créer un nouveau logiciel… Mais peut-être existe-t-il déjà ?

# Pour PDF, pas vu, mais pour DjVu

Posté par 🚲 Tanguy Ortolo (site web personnel) le 18 novembre 2014 à 18:03. Évalué à 4.

Je ne connais rien de tel en libre pour du PDF, en revanche ça existe pour DjVu, avec le logiciel ocrodjvu.

Et pour info, le résultat permet plus que seulement de la recherche, puisque cela permet également de faire du copier-coller.
- [^] # Re: Pour PDF, pas vu, mais pour DjVu
  
  Posté par BAud (site web personnel) le 19 novembre 2014 à 17:40. Évalué à 2.
  
  et il y a djview4 pour convertir ensuite en PDF http://djvu.sourceforge.net/doc/man/djview4.html : reste à vérifier que la partie de reconnaissance de caractères est bien insérée dans le PDF…
# pdfsandwich

Posté par Axone le 18 novembre 2014 à 19:51. Évalué à 5. Dernière modification le 18 novembre 2014 à 19:52.

J'avais mis dans mes bookmarks le logiciel pdfsandwich il y a quelques années. Je ne sais pas ce qu'il donne. Si tu peux faire un retour…
http://www.tobias-elze.de/pdfsandwich/index.html

pdfsandwich generates "sandwich" OCR pdf files, i.e. pdf files which contain only images (no text) will be processed by optical character recognition (OCR) and the text will be added to each page invisibly "behind" the images.
# À décomposer

Posté par chimrod (site web personnel) le 18 novembre 2014 à 20:23. Évalué à 2.
Il y a deux besoins dans ta demande :
- faire de l'extraction de données
- construire le calque
Pour la partie extraction je laisse ceux qui en savent plus que moi parler. Le second point dépend bien sûr de la qualité de l'extraction, mais est parfaitement possible avec les réserves suivantes :
- jeu de police ttf pour lequel tu disposes d'un jeu complet
- perte des notions de souligné dans le texte (dans un pdf, c'est un graphique en plus, mais est extérieur à la police)
- positionnement approximatif des lettres : pas de crénage
- Je suppose que le calque devrait effacer l'image en dessous pour éviter que la lettre ne se superpose ? Dans ce cas, il ne faut pas de font de page sur tes documents…
À noter qu'il est possible de reproduire l'italique (c'est une transformation à appliquer au texte), mais c'est à tester au cas par cas.

C'est parfaitement possible avec pdfbox (licence apache), mais demande beaucoup de boulot dans tous les cas. Je crois que tu ne trouveras pas de solution toute faite pour ça.
# Mal au dos

Posté par GG (site web personnel) le 18 novembre 2014 à 22:20. Évalué à 5.

Bonsoir,

il me semble qu'il y a un logiciel, Malodos(?), dont l'objectif est de scanner en masse des documents, de les convertir en PDF, et d'en créer un index à partir de techniques de reconnaissances de caractères (OCR).

En gros, ça correspondrait à tes besoins.

Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html
- [^] # Re: Mal au dos
  
  Posté par palm123 (site web personnel) le 20 novembre 2014 à 10:18. Évalué à 4.
  
  Comme dit par nonas, malodos est devenu paperwork
  https://github.com/jflesch/paperwork
  
  ウィズコロナ
# Paperwork

Posté par nonas le 19 novembre 2014 à 09:59. Évalué à 6.

Est-ce que Paperwork pourrait répondre à tes besoins ?
Pour info, son développeur en parle ici : https://linuxfr.org/news/sortie-de-paperwork-0-2
# OCRmyPDF

Posté par harryinspector le 19 novembre 2014 à 10:16. Évalué à 3.

https://github.com/fritz-hh/OCRmyPDF

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.