le net était estimé à 1 milliard de pages, et Google, premier en nombre de pages indexées, en couvre 500 ou 600 milions je crois. En comptant toutes les bases de données et toutes les pages, on approcherait en réalité de 500 milliards de page. Les moteurs qui n'indexent que la surface visible sont donc loin du compte. Néanmoins l'exhaustivité pose aussi des problèmes pour la recherche...
Pour finir, l'étude provient d'une société qui compte vendre ses services (i.e. pas très impartiale). A vous de juger.
Conclusion : ne pas lancer htdig sur internet :)
Aller plus loin
- Article Libé (1 clic)
- Htdig (1 clic)
# 1 milliard ?
Posté par Anonyme . Évalué à 0.
Mhhh, non, c'est la "surface" du web qui est estimée à 1 milliard de site.
Google indexe 1,3 millard de pages.
Quant aux pages "introuvables" dans les moteurs de recherche, on peut y accède à partir de la page principale. L'article site mp3.com, ebay.com, amazon.com, ...
[^] # Re: 1 milliard ?
Posté par Benoît Sibaud (site web personnel) . Évalué à 1.
# pan dans la google
Posté par Anonyme . Évalué à 0.
[^] # Re: pan dans la google
Posté par Anonyme . Évalué à 0.
# Aspirateur web
Posté par François B. . Évalué à 1.
Non seulement il ne faut pas utiliser htdig pour indexer, mais en plus il est conseillé de fortement limiter le nombre de liens à suivre hors site lors d'une aspiration sur le web ...
[^] # Re: Aspirateur web
Posté par Anonyme . Évalué à 0.
[^] # Re: Aspirateur web
Posté par Benoît Sibaud (site web personnel) . Évalué à 1.
[^] # Re: Aspirateur web
Posté par Gaël . Évalué à 1.
A cause des pages dynamiques.
Linuxfr, par exemple, à un nombre de page variables (quoique, non, mauvais exemple: http://linuxfr.org/index.php3/666(...) est là pour l'indiquer, en fait toute les pages sont déjà présentes).
Sur Google, vous n'avez pas 1 milliards de liens en bas de la page principale.
Sur les sites skinables, comme slashdot, chaque page est en fait disponible sous plusieurs formes.
Donc, les pages sont bien plus nombreuses que prévues, et les liens disponibles sur une page sont variables. Alors ces stats ne sont pas vraiment applicables.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.