Forum Linux.débutant Récupérer au format html un tableau pdf

Posté par . Licence CC by-sa
1
19
mai
2014

Je débute et commence à utiliser les exec sous php.
Actuellement je fais : exec("pdftohtml -c -i -noframes $pdfalire $html");

Je récupère tout le pdf en html. Je voudrais juste le tableau en bas de page. Quelqu'un ou quelqu'une peut-elle ou peut-il m'aider.

le $pdfalire est accessible sur www.officeservice.fr/PDF/30253.PDF et en le visualisant vous verrez un tableau qui fait les correspondances entre les articles. C'est ce tableau là que je veux récupérer…. et en plus avec les liens… Est-ce possible ?

Merci pour celles et ceux qui prendront le temps de m'aider.
A bientôt.
Philippe

  • # copier/coller

    Posté par . Évalué à 2.

    copier/coller ?

    bon sinon, si ca genere un tableau propre, tu peux relire le html pour en recuperer que ce qui se trouve entre les balises tables

    tu recuperes alors un code qui ressemble à ca

    <table>
    <tr><td>ma premiere colonne, premiere ligne</td><td>ma 2e colonne, premiere ligne</td></tr>
    <tr><td>ma premiere colonne, 2e ligne</td><td>ma 2e colonne, 2e ligne</td></tr>
    </table>
  • # de l'usage du pdf

    Posté par . Évalué à 2.

    le format pdf est destiné à l'impression
    il garantie que le rendu visuel sera correct.
    par contre il n'est absolument pas destiné au transport d'information.
    pour lui, ce que tu vois comme un tableau, c'est des barres verticales, des barres horizontales, des caractères d'imprimerie.

    avec de la chance, des fois, les caractères d'imprimerie se suivent dans le fichier pdf pour former des phrases des mots mais ce n'est pas garanti.
    alors reconstruire un tableau, c'est illusoire.

    sur ton exemple, un copier (dans sumatrapdf) coller (dans un éditeur de texte) permet de récupérer le texte mais dans le désordre.

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.