Forum général.cherche-logiciel Conversion PDF vers Texte

Posté par Anonyme le 09 août 2007 à 08:51.

Étiquettes :

août

2007

bonjour

existe t il des logiciels qui font la conversion PDF vers Texte ?
Et qui seraient autre chose que les outils adobe pour éditer des docuements pdf ?

Merci pr l'info
a+

# pdftotext

Posté par Val1472 le 09 août 2007 à 09:16. Évalué à 3.

pdftotext doit être dans un des paquets de ta distrib,
sinon un "man pdftotext" sort l'url : http://www.foolabs.com/xpdf/
- [^] # Re: pdftotext
  
  Posté par Émilien Tlapale le 09 août 2007 à 10:18. Évalué à 3.
  
  Chez moi pdtotext vient de poppler. C'est un simple utilitaire qui va récupérer les charactères et les assembler via poppler. Dans la même veine il y a pdftohtml avec prise en compte des fontes.
  Par contre aucun ne garde comme il faut la structure, genre si tu as des textes présentés de manière compliqué.
# créer ou modifier ?

Posté par argt le 09 août 2007 à 12:03. Évalué à 4.

pour ce qui est d'éditer des pdf, je n'étais pas sur si tu voulais créer des pdf, ou les modifier.

pour la création, il y a plein d'outils. Par exemple, openoffice permet d'exporter ton travail sous forme de pdf et latex a de nombreuses possibilités pour créer des fichiers pdf comme pdflatex

pour la modification, c'est beaucoup plus difficile. Un fichier pdf n'est pas fait pour être modifié. adobe professionel permet la modification de pdf mais ce n'est pas ce que tu recherches. Une technique de viel ours est d'utiliser scribus (un logiciel de PAO disponible pour la majorité des distributions) d'importer ton pdf comme image de fond, de rajouter ce que tu veux au dessus et d'exporter le tout sous pdf.
(apprentissage de scribus necessaire, j'avais essayé il y a plus d'un an et avait bien galéré pour un résultat médiocre).
# Merci pr vos réponses

Posté par Anonyme le 09 août 2007 à 14:22. Évalué à 1.

Merci pr vos réponses,
Je reçois dans mon boulot ds scans en pdf issu de la photocopieuse Xerox (numérisation de bordereaux) ùon but était d'extraire les données au format brut txt pour faire des extractions sur une base de données.

Ce n'était pas tant de générer ou modifier un pdf tel quel mais bien d'avoir les infos textes contenues dans celui-ci.

Xpdf a l'air de bien marcher pour faire du pdf->txt à condition que le pdf ait été généré par un éditeur de texte ou équivalent.

Mais dans mon cas le format pdf Xerox est assez crade puisqu'il sa'git d'une image plus que d'un texte élaboré donc en fait je ne crois pas que je pourrai aboutir à mes fins, mais merci bcp quand même pour votre aide.
- [^] # Re: Merci pr vos réponses
  
  Posté par briaeros007 le 09 août 2007 à 14:50. Évalué à 2.
  
  il te reste l'ocr alors.
  Si c'est juste une image, fait toujours par le meme équipement, l'OCR devrait etre pas si mal.
  
  par contre je connais pas du tout :'(
  - [^] # Re: Merci pr vos réponses
    
    Posté par Émilien Tlapale le 09 août 2007 à 19:09. Évalué à 2.
    
    Au hasard parmis les bien maintenu actuellement il y a tesseract [1] qui était un vieux tru proprio et gocr [2] utilisé dans les anti-spam je crois.
    
    [1] http://code.google.com/p/tesseract-ocr/
    [2] http://jocr.sourceforge.net/

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.