Recherche sur le web

Posté par Anonyme le 18 décembre 2000 à 14:05. Modéré par Fabien Penso.

Étiquettes : aucune

déc.

2000

Vu dans un article de Libé,

le net était estimé à 1 milliard de pages, et Google, premier en nombre de pages indexées, en couvre 500 ou 600 milions je crois. En comptant toutes les bases de données et toutes les pages, on approcherait en réalité de 500 milliards de page. Les moteurs qui n'indexent que la surface visible sont donc loin du compte. Néanmoins l'exhaustivité pose aussi des problèmes pour la recherche...

Pour finir, l'étude provient d'une société qui compte vendre ses services (i.e. pas très impartiale). A vous de juger.

Conclusion : ne pas lancer htdig sur internet :)

Aller plus loin

Article Libé (2 clics)
Htdig (4 clics)

# 1 milliard ?

Posté par Anonyme le 18 décembre 2000 à 16:18. Évalué à 0.

> le net était estimé à 1 milliard de pages
Mhhh, non, c'est la "surface" du web qui est estimée à 1 milliard de site.
Google indexe 1,3 millard de pages.

Quant aux pages "introuvables" dans les moteurs de recherche, on peut y accède à partir de la page principale. L'article site mp3.com, ebay.com, amazon.com, ...
- [^] # Re: 1 milliard ?
  
  Posté par Benoît Sibaud (site web personnel) le 18 décembre 2000 à 16:33. Évalué à 1.
  
  Il me semble que dans l'étude qui montrait que le net avait un forme en noeud papillon, ils tablaient sur un milliard de pages. C'est ce chiffre qui était d'ailleurs repris en général.
# pan dans la google

Posté par Anonyme le 18 décembre 2000 à 20:53. Évalué à 0.

vous avez déjà réussit à utiliser *efficacement* google vous ? Moi je n'ai jamais trouvé ce que je cherchais avec. A chaque fois j'ai des tonnes de liens mais sur des sites pipeau qui n'ont rien à voir avec ce que je cherche vraiment. Ce n'est pas un problème de mots clefs car avec les mêmes mots clefs je trouve ce que je cherche avec metacrawler.
- [^] # Re: pan dans la google
  
  Posté par Anonyme le 19 décembre 2000 à 01:22. Évalué à 0.
  
  Je connais pas metacrawler, mais je sais que google m'a toujours mieux renseigne que d'autres....
# Aspirateur web

Posté par François B. le 19 décembre 2000 à 09:42. Évalué à 1.

Je ne sais plus où j'ai vu ça, mais il paraîtrait qu'en 7 liens maximum, on peut aller de n'importe quel site vers n'importe quel autre.
Non seulement il ne faut pas utiliser htdig pour indexer, mais en plus il est conseillé de fortement limiter le nombre de liens à suivre hors site lors d'une aspiration sur le web ...
- [^] # Re: Aspirateur web
  
  Posté par Anonyme le 19 décembre 2000 à 10:45. Évalué à 0.
  
  wget -r http://www.google.com(...)
- [^] # Re: Aspirateur web
  
  Posté par Benoît Sibaud (site web personnel) le 19 décembre 2000 à 11:14. Évalué à 1.
  
  Dans l'étude "le net == noeud pap" il me semble. Or comme l'article en question la remet en question... La vérité doit être du genre "en moins de 10 liens, on peut atteindre n'importe quel page de la surface du web" (et en plus si google réussit à monter à 1 milliard de pages, on pourra aussi aller de google à n'importe quelle page du web en 1 lien, donc il suffit de convaincre chaque webmaster de mettre un lien vers google pour mettre toutes les pages de la surface du web à 2 liens les unes des autres %!)
  - [^] # Re: Aspirateur web
    
    Posté par Gaël le 19 décembre 2000 à 17:44. Évalué à 1.
    
    En fait ces histoires de nombres de pages et de lien, c'est du pipeau.
    A cause des pages dynamiques.
    
    Linuxfr, par exemple, à un nombre de page variables (quoique, non, mauvais exemple: http://linuxfr.org/index.php3/666(...) est là pour l'indiquer, en fait toute les pages sont déjà présentes).
    
    Sur Google, vous n'avez pas 1 milliards de liens en bas de la page principale.
    Sur les sites skinables, comme slashdot, chaque page est en fait disponible sous plusieurs formes.
    
    Donc, les pages sont bien plus nombreuses que prévues, et les liens disponibles sur une page sont variables. Alors ces stats ne sont pas vraiment applicables.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.