Journal Indéxer des PDF.

Posté par  .
Étiquettes : aucune
0
2
fév.
2004
Ils sont tous dans un même répertoire dans lequel il n'y a qu'eux. Je veux donc un truc simple (exit htdig car il faudrait que j'écrive une page HTML lieant tout les PDF).

Merci d'avance.

Pouet!
  • # Re: Indéxer des PDF.

    Posté par  (site web personnel, Mastodon) . Évalué à 4.

    en bash ?


    echo "{html}{head}{title}Mes bow pdf{/title}{/head}{body}{ul}" > index.html
    for PDF in *.pdf
    do
    echo "{li}{a href=\"$PDF\"}$PDF{/a}{/li}>" >> index.html
    done
    echo "{/body}{/html}">> index.html



    Il faut juste remplacer les {} par des < > (car linuxfr ne veut pas que je postes des tags htmls dans mon commentaire).
    • [^] # oops

      Posté par  (site web personnel, Mastodon) . Évalué à 1.

      j'ai oublié de fermer {ul}, donc la dernière ligne devrait être:

      echo "{/ul}{/body}{/html}">> index.html
  • # Re: Indéxer des PDF.

    Posté par  . Évalué à 2.

    perlfect ira tres bien

    http://www.perlfect.com/freescripts/search/(...)

    C'est un peu modifié (couplé a un moteur d'indexage perso) mais ca donne ca :
    http://www.madchat.org/search/?miaou=scheduler&cat=(...)
    http://www.madchat.org/search/?miaou=ule&cat=(...)

    [perlfect en lui même c'est apres la tete de chat.]

    C'est ecrit en Perl, plutot pas mal écrit même. J'ai relu vite fait le code pas vu de gros trous de secus. Tu peux indexer via http ou en local (donc pas besoin qu'une page html pointe vers les liens). Indexage des doc/rtf/pdf/ps enfin ce que tu veux tant que tu as un filtre pour passer ca en texte. Et ca tien plutot bien la route (l'indexage de 3/4 Go de textes prend dans le petit quart d'heure et 150 Mo de RAM bien que l'on puisse diminuer la RAM au detriment du temps CPU qui explose).

    Vala

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.