Forum Programmation.web Archive statique d'un site web dynamique

Posté par Nerdiland de Fesseps le 18 novembre 2008 à 22:23.

Étiquettes : aucune

nov.

2008

Voilà mon problème : j'ai des sites (utilisant divers CMS) dont le contenu ne sera plus jamais mis à jour et je voudrais les archiver sous forme de pages HTML statiques.

Il me faut donc un programme qui :
- récupère toutes les pages du site
- avec toutes les images, feuilles de style et documents liés
- et également les images et documents déclarés dans les CSS !
- qui retouche les liens pour que le site archivé soit naviguable
- qui reste sur le domaine et ne va pas récupérer des documents certes liés mais appartenant à d'autres sites.

J'ai essayé HTTrack, qui me récupère trop de choses et plante de toute façon avant la fin, et wget avec les options qui vont bien, qui fait des erreurs dans les liens et ne va pas chercher les images déclarées dans les CSS... Connaissez-vous un programme qui fasse l'affaire ?

# Curl

Posté par Bernez le 18 novembre 2008 à 23:58. Évalué à 1.

Il y a le programme curl. Je ne sais pas s'il fait tout ce que tu veux, mais ça vaut le coup d'y regarder de plus près.
# HTTrack

Posté par Ymage le 19 novembre 2008 à 01:33. Évalué à 3.

Je sais que tu dis avoir utilisé HTTrack mais pour l'avoir utilisé de manière intensive il y'a quelques années, c'est l'outil qu'il te faut.
Avec les bonnes options pour ne pas en récupérer trop; comme tu dis.

Et question plantage, je n'y ai pas été confronté.

Une nouvelle tentative avec apprentissage peut-être ....
Si vous n'aimez pas ce commentaire c'est qu'il est ironique.
- [^] # Re: HTTrack
  
  Posté par Nerdiland de Fesseps le 19 novembre 2008 à 14:53. Évalué à 1.
  
  J'ai pourtant parcouru la page de man en détail, essayé en ligne de commande autant que via l'interface web, en passant ou non différentes options, et il y a toujours le même problème : les liens contenant des accents sont mal traduits par HTTrack (système et pages en UTF-8 pourtant), et le processus plante toujours quelque part, parfois sur un fichier volumineux type OGG Vorbis, parfois sur une page. Attendre plusieurs heures ne change rien.
  
  Mon dernier essai était avec httrack -D -c1 http://monsite.tld
# Commentaire supprimé

Posté par Anonyme le 19 novembre 2008 à 01:48. Évalué à 2.

Ce commentaire a été supprimé par l’équipe de modération.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.

# Curl

# HTTrack

[^] # Re: HTTrack

# Commentaire supprimé