Journal Indéxer des PDF.

Posté par LLG le 02 février 2004 à 14:00.

Étiquettes : aucune

fév.

2004

Ils sont tous dans un même répertoire dans lequel il n'y a qu'eux. Je veux donc un truc simple (exit htdig car il faudrait que j'écrive une page HTML lieant tout les PDF).

Merci d'avance.

Pouet!

# Re: Indéxer des PDF.

Posté par CopainJack (site web personnel, Mastodon) le 02 février 2004 à 14:21. Évalué à 4.

en bash ?

echo "{html}{head}{title}Mes bow pdf{/title}{/head}{body}{ul}" > index.html
for PDF in *.pdf
do
echo "{li}{a href=\"$PDF\"}$PDF{/a}{/li}>" >> index.html
done
echo "{/body}{/html}">> index.html

Il faut juste remplacer les {} par des < > (car linuxfr ne veut pas que je postes des tags htmls dans mon commentaire).
- [^] # oops
  
  Posté par CopainJack (site web personnel, Mastodon) le 02 février 2004 à 14:29. Évalué à 1.
  
  j'ai oublié de fermer {ul}, donc la dernière ligne devrait être:
  
  echo "{/ul}{/body}{/html}">> index.html
# Re: Indéxer des PDF.

Posté par ckyl le 02 février 2004 à 15:52. Évalué à 2.

perlfect ira tres bien

http://www.perlfect.com/freescripts/search/(...)

C'est un peu modifié (couplé a un moteur d'indexage perso) mais ca donne ca :
http://www.madchat.org/search/?miaou=scheduler&cat=(...)
http://www.madchat.org/search/?miaou=ule&cat=(...)

[perlfect en lui même c'est apres la tete de chat.]

C'est ecrit en Perl, plutot pas mal écrit même. J'ai relu vite fait le code pas vu de gros trous de secus. Tu peux indexer via http ou en local (donc pas besoin qu'une page html pointe vers les liens). Indexage des doc/rtf/pdf/ps enfin ce que tu veux tant que tu as un filtre pour passer ca en texte. Et ca tien plutot bien la route (l'indexage de 3/4 Go de textes prend dans le petit quart d'heure et 150 Mo de RAM bien que l'on puisse diminuer la RAM au detriment du temps CPU qui explose).

Vala

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.

# Re: Indéxer des PDF.

[^] # oops

# Re: Indéxer des PDF.