Forum général.cherche-logiciel API / prog pour PDF vers XML

Posté par  .
Étiquettes : aucune
1
12
mai
2010
Bonjour à tous zé toutes (si si y parait qu'il y en a ...),

Dans le cadre de mon travail, on utilise un utilitaire fait maison pour "transformer" un PDF vers du XML, cad extraire toutes les informations que l'on juge utile pour alimenter le reste de la chaine de production.
Mais, sinon c'est pas amusant et je ne viendrais pas m'en remettre à votre grande sagacité (quoi ? j'en fais trop moaaa ?), on a souvent des extractions partielles (textes mal recomposés, éléments graphique invisibles, images de mauvaise qualité, ....), donc on est à la recherche d'outils plus performants ou précis que le notre pour faire cette extraction.
Pour l'instant c'est surtout de la R&D, donc toutes les solutions sont les bienvenues.
Bien sur mon coeur pencherait plutôt pour des solutions Open Source pour d'une, mieux comprendre la structure de ces foutus PDF et de deux, pouvoir l'aménager/améliorer et soyons fous, pourquoi pas contribuer.
Mais même du bien fermé et privatif (genre API Adobe) si ca répond à nos besoins peut être envisagé.
Le langage autour n'est pas un problème non plus (on utilise un outil Windev alors c'est pour vous dire :-) ).

Si vous avez des retours d'expérience, des pistes, on est preneur.

Merci d'avance.
  • # PDFBox

    Posté par  (site web personnel) . Évalué à 2.

    En java PDFBox[1] permet pas mal de chose sur le PDF. C'est de l'open source et je n'ai pas trouvé une autre librairie équivalente ( si il y a en python je suis également preneur…)

    l'extraction d'image, de texte sans problème ( et il est même «assez» facile de se monter un interpréteur PDF de toute pièce en se basant leur librairies…)

    [1] http://pdfbox.apache.org/
    • [^] # Re: PDFBox

      Posté par  . Évalué à 1.

      Je viens de jeter un coup d'oeil et ca m'a l'air pas trop mal. Merci.

      Reste plus qu'à l'essayer sur nos PDFs qui sont un gros mélange de textes, d'images, de formes géométriques (c'est surtout ces dernières qui nous donnent le plus de fil à retordre).
  • # Ah, j'ai juste fait un billet sur le blog :

    Posté par  . Évalué à 4.

    salut, tu peux regarder cette adresse [1]. Je ne sais pas si ça te sera utile, mais peut être en complément, ou une piste à explorer.

    [1 : http://lvi.toile-libre.org/weblog/?p=14]

    Systemd, the bright side of linux, toward a better user experience and on the road to massive adoption of linux for the desktop.

    • [^] # Re: Ah, j'ai juste fait un billet sur le blog :

      Posté par  . Évalué à 1.

      Je pense que ca réponds moins à notre besoin (que j'ai complété dans le post au-dessus), mais pour transformé un PDF en images pourquoi pas (on utilise image magick plutot).

      Mais merci quand même.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.