Forum général.cherche-logiciel PDF crawler

Posté par  .
Étiquettes :
2
22
juin
2012

Bonjour,

je cherche un software pour créer une base de donnée des PDF, en les indexant par texte.

Est-ce que l'utilisation de pdftext peut faire ça, ou est-il possible d'utiliser une librairie comme pyPDF pour extraire le contenu texte d'un pdf ?

Cdt.

  • # extract ?

    Posté par  (site Web personnel) . Évalué à 3.

    extract permet de lire les métadonnées de beaucoup de format, y compris les pdf. Après il faut voir s'il permet aussi de récupérer assez de texte pour ton indexation.

  • # Malodos

    Posté par  (site Web personnel) . Évalué à 1.

    Il est possible que ceci : https://linuxfr.org/users/davguez/journaux/pub-malodos-1-3 t’intéresse…
    En plus c’est écrit par un linuxfrien. Gage de qualité ? peut-être…

    La lumière pense voyager plus vite que quoi que ce soit d'autre, mais c'est faux. Peu importe à quelle vitesse voyage la lumière, l'obscurité arrive toujours la première, et elle l'attend.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.