Journal Comment font les moteurs de recherche ?

Posté par (page perso) .
Tags : aucun
0
22
mai
2004
Je viens de voir ce lien dans un journal :
http://www.liafa.jussieu.fr/~latapy/index.php?item=webgraph〈=(...)
Je me souviens aussi de pages créant à l'infini des adresses mail faussent pour occuper les crawleurs des spammeurs...

Comment font les moteurs de recherche pour ne pas suivre tout ce contenu sans intérêt ?

Si ils se restreignent à une certaine "profondeur" de lien pour chaque domaine, il y aura forcement de la perte. Il faut par exemple pas mal de clics pour atteindre certains journaux anciens.

En passant, ça serait intéressant d'étudier la profondeur d'un site comme linuxfr. Quel % du contenu est-il accessible en 1 clic ? 2 clic ? etc. Quelle est la page la plus "profonde" ?
  • # reflexion

    Posté par (page perso) . Évalué à 7.

    Il est impossible de faire un journal qui pointe vers la page la plus profonde du site, à moins que le journal en question ne devienne la deuxième page la plus profonde derrière celle pointée. (ou bien qu'il pointe vers lui-même et soit la page du fond)
    • [^] # Re: reflexion

      Posté par (page perso) . Évalué à 3.

      Punaise... Je me sens fatigué, là...
    • [^] # Re: reflexion

      Posté par (page perso) . Évalué à 2.

      A moins de faire un journal extérieur au site qui pointe vers la page la plus profonde du site. Comme ça, pas d'interaction avec les degrés de profondeur des pages du site...
      Comment ça, dans ce cas, c'est plus un journal ?
  • # robot.txt

    Posté par (page perso) . Évalué à 4.

    on met un fichier robots.txt dans la racine du site qui dit aux crawlers de ne pas explorer le contenu de ces pages en vu d'indexation par un moteur de recherche, par exemple :
    http://www.monkeys.com/robots.txt(...)

    Ce fichier protège le piège :
    http://www.monkeys.com/spammers-are-leeches(...)

    Pour plus de détails sur robots.txt :
    http://www.robotstxt.org/wc/exclusion.html(...)
    • [^] # Re: robot.txt

      Posté par (page perso) . Évalué à 2.

      Ok pour les pièges à spammeurs bien fait, mais il y a tout plein de sites qui ont du contenu infini et qui ne mettent pas de robots.txt

      Les crawleurs des moteurs de recherche doivent forcement en tenir compte. Je me demandais juste si ils s'arrêtaient au bout d'un moment en se basant simplement sur la profondeur ou si d'autres trucs étaient pris en compte.
      • [^] # Il crawlent en rond ces moteurs !

        Posté par . Évalué à 3.

        En tout cas, ils crawlent beaucoup... Ceux qui passent sur mon site bouffent une bande passante folle. Pourtant mon site est moins vaste que les nombre de Mo qu'ils crawlent (pour les 22 premiers jours de Mai j'en suis à 178Mo de bande passante, rien que pour Google. Alors que ma base-de-données fait environ 980ko !).

        D'où l'idée qu'ils doivent repasser plusieurs fois sur les mêmes données, présentées différemment par le moteur PHP (daCode roulaize avec Charles).

        Peut-être d'ailleurs qu'ils utilisent un indice de similarité entre les pages crawlées en profondeur et les pages proches de la surface. Quand la similarité devient trop grande (ou trop fréquente), c'est que le moteur de crawl brasse les mêmes données, il arête.
        C'est peut-être plus fiable que simplement choisir de s'arrêter en fonction de la profondeur à laquelle il est.
      • [^] # Re: robot.txt

        Posté par . Évalué à 4.

        j'ai vu GoogleBot indexer un wiki entier et garder sans sourciller plus de 300 pages (visible avec site:62.212.109.174 vaboofer , c'était une archive d'un wiki ailleurs).

        pour site:www.cnn.com on obtient 285 000 liens.


        les moteurs de recherche bien écrits ont des garde-fous pour éviter de surcharger un site en nombre de requêtes dans le temps (bande passante), suivant différents critères, et en nombre de pages mémorisées aussi.

        le souci concerne les moteurs amateurs et ceux ... euh... en cours de rodage ou de mise au point sur le terrain - comme le fameux PompOs de dir.com (Illiad/Proxad) à l'époque. ils cassent tout et là, il faut effectivement jouer du robots.txt ... en plus, quand on se plaint et qu'ils répondent, c'est pour dire qu'ils sont "en rodage"...

        ah, autre point, il a de la mémoire, ce con. j'ai viré ce wiki depuis des lustres, plusieurs mois en fait.

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.