• # pdftotext

    Posté par  . Évalué à 3.

    pdftotext doit être dans un des paquets de ta distrib,
    sinon un "man pdftotext" sort l'url : http://www.foolabs.com/xpdf/
    • [^] # Re: pdftotext

      Posté par  . Évalué à 3.

      Chez moi pdtotext vient de poppler. C'est un simple utilitaire qui va récupérer les charactères et les assembler via poppler. Dans la même veine il y a pdftohtml avec prise en compte des fontes.
      Par contre aucun ne garde comme il faut la structure, genre si tu as des textes présentés de manière compliqué.
  • # créer ou modifier ?

    Posté par  (site web personnel) . Évalué à 4.

    pour ce qui est d'éditer des pdf, je n'étais pas sur si tu voulais créer des pdf, ou les modifier.

    pour la création, il y a plein d'outils. Par exemple, openoffice permet d'exporter ton travail sous forme de pdf et latex a de nombreuses possibilités pour créer des fichiers pdf comme pdflatex

    pour la modification, c'est beaucoup plus difficile. Un fichier pdf n'est pas fait pour être modifié. adobe professionel permet la modification de pdf mais ce n'est pas ce que tu recherches. Une technique de viel ours est d'utiliser scribus (un logiciel de PAO disponible pour la majorité des distributions) d'importer ton pdf comme image de fond, de rajouter ce que tu veux au dessus et d'exporter le tout sous pdf.
    (apprentissage de scribus necessaire, j'avais essayé il y a plus d'un an et avait bien galéré pour un résultat médiocre).
  • # Merci pr vos réponses

    Posté par  . Évalué à 1.

    Merci pr vos réponses,
    Je reçois dans mon boulot ds scans en pdf issu de la photocopieuse Xerox (numérisation de bordereaux) ùon but était d'extraire les données au format brut txt pour faire des extractions sur une base de données.

    Ce n'était pas tant de générer ou modifier un pdf tel quel mais bien d'avoir les infos textes contenues dans celui-ci.

    Xpdf a l'air de bien marcher pour faire du pdf->txt à condition que le pdf ait été généré par un éditeur de texte ou équivalent.

    Mais dans mon cas le format pdf Xerox est assez crade puisqu'il sa'git d'une image plus que d'un texte élaboré donc en fait je ne crois pas que je pourrai aboutir à mes fins, mais merci bcp quand même pour votre aide.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.