Forum général.cherche-logiciel PDF crawler

Posté par lolcat le 22 juin 2012 à 15:39.

Étiquettes :

juin

2012

Bonjour,

je cherche un software pour créer une base de donnée des PDF, en les indexant par texte.

Est-ce que l'utilisation de pdftext peut faire ça, ou est-il possible d'utiliser une librairie comme pyPDF pour extraire le contenu texte d'un pdf ?

Cdt.

# extract ?

Posté par BeberKing le 22 juin 2012 à 16:06. Évalué à 3.

extract permet de lire les métadonnées de beaucoup de format, y compris les pdf. Après il faut voir s'il permet aussi de récupérer assez de texte pour ton indexation.
# Malodos

Posté par François Chaix (Mastodon) le 29 juin 2012 à 16:24. Évalué à 1.

Il est possible que ceci : https://linuxfr.org/users/davguez/journaux/pub-malodos-1-3 t’intéresse…
En plus c’est écrit par un linuxfrien. Gage de qualité ? peut-être…

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.

# extract ?