Suivi — Administration site robots.txt pour les outils d'archivage Web

#1391 Posté par  . État de l’entrée : corrigée. Assigné à Benoît Sibaud. Licence CC By‑SA.
Étiquettes : aucune
7
21
juil.
2014

Il existe quelques outils d'archivage de la tribune, avec indexation et donc possibilité de recherche.

Cependant, le /robots.txt du site interdit aux robots d'indexation d'accéder à /board.

Je suis moi même auteur d'un bot d'indexation de la tribune (Olccs), je suis donc intéressé par avoir l'avis des administrateurs du site:
- le robots.txt est-il limité aux moteurs reconnus (e.g. Google, Yahoo, Bing, DuckDuckGo, etc.) ou les bots de la tribune (et il y en a quelques uns) doivent-ils le respecter?
- le robots.txt est-il limité à l'indexation par un moteur de recherche ou son champ d'application est-il plus large (genre une lecture de la tribune pour en extraire uniquement les liens)?
- dois-je arrêter mon bot?
- une modification du robots.txt est-elle envisageable pour autoriser explicitement les différents bots?

Dans l'attente d'une réponse de votre part, je vous prie d'agréer, et toutes ces sortes de choses.

  • # C'est possible

    Posté par  . Évalué à 1 (+0/-0).

    Malgré l'absence apparente de standard, le consensus est que le robots.txt s'applique aux moteurs d'indexation récursifs :

    • D'après robotstxt.org : Web Robots (also called "Wanderers" or "Spiders") are Web client programs that automatically traverse the Web's hypertext structure by retrieving a document, and recursively retrieving all documents that are referenced.

    • D'après google : crawler: A crawler is a service or agent that crawls websites. Generally speaking, a crawler automatically and recursively accesses known URLs of a host that exposes content which can be accessed with standard web-browsers. As new URLs are found (through various means, such as from links on existing, crawled pages or from Sitemap files), these are also crawled in the same way.

    Il me semble donc que l'indexation de la tribune n'est pas concernée.

    • [^] # Commentaire supprimé

      Posté par  . Évalué à -4 (+0/-0). Dernière modification le 21 juillet 2014 à 12:41.

      Ce commentaire a été supprimé par l’équipe de modération.

      • [^] # Re: C'est possible

        Posté par  . Évalué à 1 (+0/-0).

        Pour moi le robots.txt s'applique pour les outils qui parcourent aveuglément un site en suivant les liens.
        Mais j'estime que cibler une page particulière et elle seulement n'est pas un robot au sens qu'on l'entend généralement.

    • [^] # Re: C'est possible

      Posté par  . Évalué à 4 (+0/-0).

      Alors en fait, je ne voulais pas savoir si un consensus existait ou si une RFC décrivait dans le détail les différentes interactions, mais quel était l'avis des admins. D'où je suis donc intéressé par avoir l'avis des administrateurs du site.

      Par conséquent, je voulais savoir si dans l'esprit de la mise en place du robots.txt sur le site, ils comptaient également interdire les différents bots de tribune ou pas. Dont le tiens. Je me doute que de toutes façons, si tu as écris un bot, tu vas forcément penser qu'il a le droit d'aller sur la tribune.

      • [^] # Re: C'est possible

        Posté par  (site web personnel) . Évalué à 4 (+0/-0).

        La tribune permet aux personnes authentifiées sur le site de publier des entrées sans modération a priori. Il s'agit d'échanges courts et rapides, avec ce que cela peut générer en terme de « je m'enflamme / j'oublie que je m'exprime dans un lieu public ». Il s'agit aussi d'échanges à durée de vie limitée car il n'y a pas d'archivage sur le site. Il y a déjà eu des échanges illégaux et des échanges des plus discourtois (il n'y a pas de modérateurs en permanence pour suivre les échanges en permanence) et le fait de ne pas les publiciser/archiver dans les moteurs de recherche leur donne une durée de vie faible.

        Si des personnes externes à l'équipe du site créent des archives de leur côté, ce seraient donc de leur propre choix et c'est elles qui assumeraient la responsabilité de la publication de ce contenu et sa mise en ligne plus ou moins permanente, d'un point de vue légal d'une part, mais aussi d'un point de vue relations entre des personnes/communautés (Machin aura chauffer Truc qui aura insulté Bidule etc.). Et aussi d'un point de vue technique (volume de stockage, etc.) même si c'est la partie la plus facile.

        Pour prendre une comparaison plus ou moins osée, ça serait comme vouloir conserver les archives des discussions dans un café, ça ne me semble pas avoir un intérêt énorme dans l'absolu, même si parfois certaines conversations peuvent être très intéressantes (et plein d'autres banales, navrantes ou inutiles). Et si je me place d'un point de vue site LinuxFr.org, je préfère mettre en avant (dans les moteurs de recherche et auprès des internautes visiteurs ou non du site) les dépêches, les journaux, les forums, etc. Et j'ajoute que les échanges de la tribune sont souvent cryptiques et emplis de « private jokes » pour les néophytes. Bref la tribune est une sorte de lieu d'habitués mais public (comme un troquet quoi), avec les avantages/inconvénients que cela induit.

        • [^] # Re: C'est possible

          Posté par  . Évalué à 4 (+0/-0).

          Merci pour la réponse in extenso de ce qu'est la tribune, mais vu que je la cottoie un truc genre 10 ans, je connais. Et même si je suis d'accord avec la description, ça ne répond pas trop à la question.

          Tu sembles dire que ça pose pas de problème à l'équipe si des bots d'archivage existe, sans vraiment le dire explicitement. C'est ainsi que je comprends

          Si des personnes externes à l'équipe du site créent des archives de leur côté, ce seraient donc de leur propre choix

          J'ai bon?

          • [^] # Re: C'est possible

            Posté par  (site web personnel) . Évalué à 5 (+0/-0).

            Tu sembles dire que ça pose pas de problème à l'équipe si des bots d'archivage existe, sans vraiment le dire explicitement. C'est ainsi que je comprends

            Oui, je n'en vois pas l'intérêt (osef ça intéresse d'autres gens visiblement) et ça me semble une mauvaise idée (archive d'un bistrot), mais des gens veulent le faire et le font déjà. Du coup mes réponses seraient :

            • le robots.txt est fait pour s'appliquer à tous les bots ;
            • le robots.txt pour la partie tribune a été mis en place car son archivage et son indexation à longue durée étaient une mauvaise idée ;
            • le point suivant devrait régler la question ;
            • on pourrait modifier le robots.txt pour autoriser explicitement certains bots sur la tribune (et probablement alors ajouter une mention indiquant que les propos peuvent être archivés ailleurs).
            • [^] # Re: C'est possible

              Posté par  . Évalué à 2 (+0/-0).

              Après je pense que ce serait une bonne pratique que les personnes ayant des vélléités d'archivage de ce monument culturel qu'est la tribune fassent l'effort d'avoir eux-aussi un robots.txt sur leur site d'archive afin que les contenus ne soient pas indexés par les webcrawlers.

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.