Bonjour à tous zé toutes (si si y parait qu'il y en a ...),
Dans le cadre de mon travail, on utilise un utilitaire fait maison pour "transformer" un PDF vers du XML, cad extraire toutes les informations que l'on juge utile pour alimenter le reste de la chaine de production.
Mais, sinon c'est pas amusant et je ne viendrais pas m'en remettre à votre grande sagacité (quoi ? j'en fais trop moaaa ?), on a souvent des extractions partielles (textes mal recomposés, éléments graphique invisibles, images de mauvaise qualité, ....), donc on est à la recherche d'outils plus performants ou précis que le notre pour faire cette extraction.
Pour l'instant c'est surtout de la R&D, donc toutes les solutions sont les bienvenues.
Bien sur mon coeur pencherait plutôt pour des solutions Open Source pour d'une, mieux comprendre la structure de ces foutus PDF et de deux, pouvoir l'aménager/améliorer et soyons fous, pourquoi pas contribuer.
Mais même du bien fermé et privatif (genre API Adobe) si ca répond à nos besoins peut être envisagé.
Le langage autour n'est pas un problème non plus (on utilise un outil Windev alors c'est pour vous dire :-) ).
Si vous avez des retours d'expérience, des pistes, on est preneur.
Merci d'avance.
# PDFBox
Posté par chimrod (site web personnel) . Évalué à 2.
l'extraction d'image, de texte sans problème ( et il est même «assez» facile de se monter un interpréteur PDF de toute pièce en se basant leur librairies…)
[1] http://pdfbox.apache.org/
[^] # Re: PDFBox
Posté par fanto30 . Évalué à 1.
Reste plus qu'à l'essayer sur nos PDFs qui sont un gros mélange de textes, d'images, de formes géométriques (c'est surtout ces dernières qui nous donnent le plus de fil à retordre).
# Ah, j'ai juste fait un billet sur le blog :
Posté par dave . Évalué à 4.
[1 : http://lvi.toile-libre.org/weblog/?p=14]
Systemd, the bright side of linux, toward a better user experience and on the road to massive adoption of linux for the desktop.
[^] # Re: Ah, j'ai juste fait un billet sur le blog :
Posté par fanto30 . Évalué à 1.
Mais merci quand même.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.