Chez moi pdtotext vient de poppler. C'est un simple utilitaire qui va récupérer les charactères et les assembler via poppler. Dans la même veine il y a pdftohtml avec prise en compte des fontes.
Par contre aucun ne garde comme il faut la structure, genre si tu as des textes présentés de manière compliqué.
pour ce qui est d'éditer des pdf, je n'étais pas sur si tu voulais créer des pdf, ou les modifier.
pour la création, il y a plein d'outils. Par exemple, openoffice permet d'exporter ton travail sous forme de pdf et latex a de nombreuses possibilités pour créer des fichiers pdf comme pdflatex
pour la modification, c'est beaucoup plus difficile. Un fichier pdf n'est pas fait pour être modifié. adobe professionel permet la modification de pdf mais ce n'est pas ce que tu recherches. Une technique de viel ours est d'utiliser scribus (un logiciel de PAO disponible pour la majorité des distributions) d'importer ton pdf comme image de fond, de rajouter ce que tu veux au dessus et d'exporter le tout sous pdf.
(apprentissage de scribus necessaire, j'avais essayé il y a plus d'un an et avait bien galéré pour un résultat médiocre).
Merci pr vos réponses,
Je reçois dans mon boulot ds scans en pdf issu de la photocopieuse Xerox (numérisation de bordereaux) ùon but était d'extraire les données au format brut txt pour faire des extractions sur une base de données.
Ce n'était pas tant de générer ou modifier un pdf tel quel mais bien d'avoir les infos textes contenues dans celui-ci.
Xpdf a l'air de bien marcher pour faire du pdf->txt à condition que le pdf ait été généré par un éditeur de texte ou équivalent.
Mais dans mon cas le format pdf Xerox est assez crade puisqu'il sa'git d'une image plus que d'un texte élaboré donc en fait je ne crois pas que je pourrai aboutir à mes fins, mais merci bcp quand même pour votre aide.
# pdftotext
Posté par Val1472 . Évalué à 3.
sinon un "man pdftotext" sort l'url : http://www.foolabs.com/xpdf/
[^] # Re: pdftotext
Posté par Émilien Tlapale . Évalué à 3.
Par contre aucun ne garde comme il faut la structure, genre si tu as des textes présentés de manière compliqué.
# créer ou modifier ?
Posté par argt (site web personnel) . Évalué à 4.
pour la création, il y a plein d'outils. Par exemple, openoffice permet d'exporter ton travail sous forme de pdf et latex a de nombreuses possibilités pour créer des fichiers pdf comme pdflatex
pour la modification, c'est beaucoup plus difficile. Un fichier pdf n'est pas fait pour être modifié. adobe professionel permet la modification de pdf mais ce n'est pas ce que tu recherches. Une technique de viel ours est d'utiliser scribus (un logiciel de PAO disponible pour la majorité des distributions) d'importer ton pdf comme image de fond, de rajouter ce que tu veux au dessus et d'exporter le tout sous pdf.
(apprentissage de scribus necessaire, j'avais essayé il y a plus d'un an et avait bien galéré pour un résultat médiocre).
# Merci pr vos réponses
Posté par FueL . Évalué à 1.
Je reçois dans mon boulot ds scans en pdf issu de la photocopieuse Xerox (numérisation de bordereaux) ùon but était d'extraire les données au format brut txt pour faire des extractions sur une base de données.
Ce n'était pas tant de générer ou modifier un pdf tel quel mais bien d'avoir les infos textes contenues dans celui-ci.
Xpdf a l'air de bien marcher pour faire du pdf->txt à condition que le pdf ait été généré par un éditeur de texte ou équivalent.
Mais dans mon cas le format pdf Xerox est assez crade puisqu'il sa'git d'une image plus que d'un texte élaboré donc en fait je ne crois pas que je pourrai aboutir à mes fins, mais merci bcp quand même pour votre aide.
[^] # Re: Merci pr vos réponses
Posté par briaeros007 . Évalué à 2.
Si c'est juste une image, fait toujours par le meme équipement, l'OCR devrait etre pas si mal.
par contre je connais pas du tout :'(
[^] # Re: Merci pr vos réponses
Posté par Émilien Tlapale . Évalué à 2.
[1] http://code.google.com/p/tesseract-ocr/
[2] http://jocr.sourceforge.net/
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.