Journal MSN Search se moque du fichier robot.txt ?

Posté par  (site web personnel) .
Étiquettes : aucune
0
9
août
2004
Bonjour,

Je me suis amusé à mettre le fichier robot.txt :
User-agent: msnbot
Disallow: /

Effectivement le robot identifié sous le nom de "msnbot" ne vient plus lire mes pages.

Par contre le site existe toujours dans le moteur MSN, malgrè une balise méta robots "noarchive".

Mais le plus fort, c'est que MSN Search repère et enregistre les changements apportés au site aussi vite que Google.

Première solution :
MSN Search utililse un autre robot identifié sous un autre nom.

Deuxième solution :
MSN Search utilise les résultats d'un autre robot. Peut-être un partenariat avec un autre moteur de recherche ?

Troisième solution :
MSN Search indexe directement les pages d'autres moteurs comme Google.

Qu'en pensez-vous ?
  • # il me semble que ...

    Posté par  . Évalué à 8.

    c'est robots.txt, pas robot.txt.
    MSN respecte ce fichier ... pour ce que j'en ai vu sur mon site.
  • # Je confirme

    Posté par  (site web personnel) . Évalué à -2.

    Comme vu précédemment, c'est robots.txt, et non robot.txt
  • # Question con

    Posté par  . Évalué à 4.

    J'ai aucune connaissance sur le sujet, mais en lisant, l'idée me vient à l'esprit :

    est-ce que le disallow du robots.txt n'empecherait pas ledit robot d'aller lire l'instruction "noarchive" ?
    • [^] # Re: Question con

      Posté par  (site web personnel) . Évalué à 1.

      Je ne crois pas. Car le contenu des pages indexées par le moteur MSN (d'après le titre et l'extrait) contient cette fameuse balise méta.

      De plus je répète que le robot identifié par msnbot n'accède plus aux dites pages, donc le fichier robots.txt fonctionne en apparence.

      Sauf q'une façon détournée MSN search réussit à indéxé ces pages...
      • [^] # Re: Question con

        Posté par  . Évalué à 4.

        (Je bosse chez G, pas chez MSN, mais la reponse est je pense semblable)
        Les fichiers robots.txt servent au crawler, pas a l'indexeur. Je veux dire que si des pages ont été crawlées avant que tu ne mettes ton robots.txt, elle ne seront pas "automatiquement" supprimées de l'index de recherche. Elles ne le seront que la prochaine fois que G cherchera a mettre a jour leur contenu, ce qui peut prendre quelques semaines.

        Plus d'infos sur googlebot ici: http://www.google.com/webmasters/faq.html(...)
        • [^] # Re: Question con

          Posté par  (site web personnel) . Évalué à 2.

          Merci pour cette info.

          Mais dans mon cas je suis certain que l'index a été mis à jour, puisque j'avais complètement remis à jour mon site après avoir déposé le fichier robots.txt.
          http://linux.tlk.fr/robots.txt(...)

          Et les résultats donnés par la recherche de MSN Search affichaient le nouveau titre et un extrait du nouveau contenu.

          Pour vérifier j'ai modifié sensiblement le titre et modifié le contenu de la page et quelques jours plus tard MSN Search affichait fièrement le nouveau titre et le nouveau contenu.

          Par contre aucune trace de l'agent msnbot dans les logs.

          J'ai fait un autre test sur un autre de mes sites. J'ai autorisé modifié sensiblement le titre et le contenu de la page http://mozilla.tlk.fr/faq3.php(...) et dans le fichiers http://mozilla.tlk.fr/robots.txt(...) j'ai interdit tous les robots pour cette page. Je verrai lerésultat dans quelques jours.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.