Recherche sur le web

Posté par  . Modéré par Fabien Penso.
Étiquettes : aucune
0
18
déc.
2000
Internet
Vu dans un article de Libé,

le net était estimé à 1 milliard de pages, et Google, premier en nombre de pages indexées, en couvre 500 ou 600 milions je crois. En comptant toutes les bases de données et toutes les pages, on approcherait en réalité de 500 milliards de page. Les moteurs qui n'indexent que la surface visible sont donc loin du compte. Néanmoins l'exhaustivité pose aussi des problèmes pour la recherche...

Pour finir, l'étude provient d'une société qui compte vendre ses services (i.e. pas très impartiale). A vous de juger.

Conclusion : ne pas lancer htdig sur internet :)

Aller plus loin

  • # 1 milliard ?

    Posté par  . Évalué à 0.

    > le net était estimé à 1 milliard de pages
    Mhhh, non, c'est la "surface" du web qui est estimée à 1 milliard de site.
    Google indexe 1,3 millard de pages.

    Quant aux pages "introuvables" dans les moteurs de recherche, on peut y accède à partir de la page principale. L'article site mp3.com, ebay.com, amazon.com, ...
    • [^] # Re: 1 milliard ?

      Posté par  (site web personnel) . Évalué à 1.

      Il me semble que dans l'étude qui montrait que le net avait un forme en noeud papillon, ils tablaient sur un milliard de pages. C'est ce chiffre qui était d'ailleurs repris en général.
  • # pan dans la google

    Posté par  . Évalué à 0.

    vous avez déjà réussit à utiliser *efficacement* google vous ? Moi je n'ai jamais trouvé ce que je cherchais avec. A chaque fois j'ai des tonnes de liens mais sur des sites pipeau qui n'ont rien à voir avec ce que je cherche vraiment. Ce n'est pas un problème de mots clefs car avec les mêmes mots clefs je trouve ce que je cherche avec metacrawler.

    • [^] # Re: pan dans la google

      Posté par  . Évalué à 0.

      Je connais pas metacrawler, mais je sais que google m'a toujours mieux renseigne que d'autres....
  • # Aspirateur web

    Posté par  . Évalué à 1.

    Je ne sais plus où j'ai vu ça, mais il paraîtrait qu'en 7 liens maximum, on peut aller de n'importe quel site vers n'importe quel autre.
    Non seulement il ne faut pas utiliser htdig pour indexer, mais en plus il est conseillé de fortement limiter le nombre de liens à suivre hors site lors d'une aspiration sur le web ...
    • [^] # Re: Aspirateur web

      Posté par  . Évalué à 0.

    • [^] # Re: Aspirateur web

      Posté par  (site web personnel) . Évalué à 1.

      Dans l'étude "le net == noeud pap" il me semble. Or comme l'article en question la remet en question... La vérité doit être du genre "en moins de 10 liens, on peut atteindre n'importe quel page de la surface du web" (et en plus si google réussit à monter à 1 milliard de pages, on pourra aussi aller de google à n'importe quelle page du web en 1 lien, donc il suffit de convaincre chaque webmaster de mettre un lien vers google pour mettre toutes les pages de la surface du web à 2 liens les unes des autres %!)
      • [^] # Re: Aspirateur web

        Posté par  . Évalué à 1.

        En fait ces histoires de nombres de pages et de lien, c'est du pipeau.
        A cause des pages dynamiques.

        Linuxfr, par exemple, à un nombre de page variables (quoique, non, mauvais exemple: http://linuxfr.org/index.php3/666(...) est là pour l'indiquer, en fait toute les pages sont déjà présentes).

        Sur Google, vous n'avez pas 1 milliards de liens en bas de la page principale.
        Sur les sites skinables, comme slashdot, chaque page est en fait disponible sous plusieurs formes.

        Donc, les pages sont bien plus nombreuses que prévues, et les liens disponibles sur une page sont variables. Alors ces stats ne sont pas vraiment applicables.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.