Forum général.général wget + suivi de lien vs sauvegarde

Posté par  (site web personnel) .
Étiquettes : aucune
0
4
août
2008

Dans wget, il est possible de donner des templates d'URLs à suivre. Le problème, c'est que je voudrais que wget suive tout et ne sauve que certaines pages, j'ai l'impression que ce n'est pas possible. Si je donne une forme d'URL, il l'applique aussi aux liens à suivre. Est-ce que je m'y prends mal ou est-ce effectivement une limitation de wget ?
  • # wget et lien

    Posté par  . Évalué à 1.

    wget par definition suit les liens à partir de la page de depart
    et parcours le site de maniere recursive pour aller dans les sous-liens...


    par contre si tu veux sauvegarder un site qui passe par une base de données, je ne suis pas sur que tu puisse sauvegarder tout le site comme ca.
    • [^] # Re: wget et lien

      Posté par  (site web personnel) . Évalué à 1.

      à mon avis, je n'ai pas dû être clair ;-).

      sur un site, tu as uniquement certaines pages qui t'intéressent.
      par exemple, des fiches produits que tu souhaites indexer.

      ce que je veux, c'est par exemple indexer les fiches produits mais pas les pages de catégorie, sachant que la découverte des pages de catégorie implique de passer par l'index puis les pages de catégorie.

      Avec "-A" comme options, j'ai l'impression que wget mélange les deux. En fait, pour ramener ça à une directive "robots", je ne vois pas comment séparer les règles pour l'"index" et le "follow".
      • [^] # Re: wget et lien

        Posté par  . Évalué à 3.

        -A acclist --accept acclist
        -R rejlist --reject rejlist


        si tu connais les categories, tu peux peut-etre directement lister et recuperer les fiches dans les categories ...

        avec l'option -i mon_fichier_input
        si tu mets tes differentes URL dans le fichier tu dois pouvoir recuperer uniquement les fiches

        genre
        http://mon_site.tld/?categorie=cat1
        http://mon_site.tld/?categorie=cat2

        ce qui evite de recuperer tout le site, et permet d'avoir le contenu des categories

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.