• # robot.txt

    Posté par  (site web personnel) . Évalué à 5 (+3/-1).

    Robot.txt a été créé exactement pour cette raison du temps des moteurs de recherches. Est-ce que l'on connait la légalité de ne pas le respecter ?

    Certains propriétaires utilisent leur application pour faire les requêtes depuis les smartphones ! Cela devient n'importe quoi.

    "La première sécurité est la liberté"

    • [^] # Re: robot.txt

      Posté par  . Évalué à 6 (+4/-0).

      Si on veut imiter la connerie humaine on est bien obligé d'imiter les connards.
      Du coup probablement qu'un jour on en arrivera à légiférer là dessus. Il faudra pouvoir identifier les visiteurs avec leur empreinte génétique dans les entêtes pour que ce soit applicable. On n'a pas le choix voyez vous.

    • [^] # Re: robot.txt

      Posté par  (site web personnel) . Évalué à 4 (+2/-0).

      Un loi sur un tel sujet technique? J'ai du mal à voir. A la limite le fait de ne pas rendre indisponible un autre système d'information, ça c'est légalisable, et là on pourrait creuser en disant qu'il est admins que si un robots.txt existe, alors il est communément admis que le respecter est une bonne chose.

      Après le site tu le mets bien à disposition du public, donc en quoi une requête d'un outil serait moins légitime (point de vue légal) que celle d'un autre utilisateur? Après je parle bien d'une requête, et pas d'une armée mal codée qui relis les pages encore et encore alors qu'il n'y a aucune modification dessus.

      Je ne dis pas que l'aime ce qu'ils font, mais je pense que l'assise légale pour les empêcher ne doit pas être énorme. Quand on voit que ces sociétés font du respect de la propriété intellectuelle des autres, je pense que le soucis de mettre au tas les sites n'est que le cadet de leurs problèmes malheureusement.

      • [^] # Re: robot.txt

        Posté par  (site web personnel) . Évalué à 7 (+4/-0).

        Après le site tu le mets bien à disposition du public, donc en quoi une requête d'un outil serait moins légitime (point de vue légal) que celle d'un autre utilisateur? Après je parle bien d'une requête, et pas d'une armée mal codée qui relis les pages encore et encore alors qu'il n'y a aucune modification dessus.

        On peut attaquer l'usage plutôt que la requête en elle même.

        L'objectif est de collecter de l'info pour en faire quelque chose. Un service autour d'un LLM, l'apprentissage du LLM, ou alimenter la BDD d'un moteur de recherche. On pourrait arguer que le propriétaire du serveur ne souhaite pas que le contenu certes public puisse alimenter ces services et que on devrait pouvoir respecter ce choix.

        Ou de même attaquer non pas la requête individuelle qui a un coût dérisoire mais la conséquence d'un suivi agressif qui fait augmenter les coûts d'hébergement de manière significatives voire réduire les performances du système et peut s'apparenter de fait à un DDOS que le respect du souhait initial permettrait d'éviter.

        La loi pourrait s'adapter autour de ça. Après tout on a bien des lois plus difficiles à gérer que ça dans le fond.

        • [^] # Re: robot.txt

          Posté par  (site web personnel) . Évalué à 3 (+1/-0).

          Je ne suis pas certain pour le premier point, car il ne me semble que ce n'est pas encore tranché si l’apprentissage des LLM c'est du fair-use ou pas. Si c'est du fair-use, si tu as posté publiquement il n'y a pas d'accès non autorisé, donc là c'est mal barré.

          Mais tout à fait d'accord avec le second point, on arrive à un DDOS au final, et ça c'est clairement répréhensible vu le volume.

          Juste que répondre sur quelques requêtes qui ne respectent pas le robots.txt ne me semble pas être une bonne défense à l'heure actuelle, même si j’aimerai que ce soit le cas, et qu'on remette un peu d'ordre dans ce far west de l'entrainement des IA.

          • [^] # Re: robot.txt

            Posté par  (site web personnel) . Évalué à 4 (+1/-0).

            Juste que répondre sur quelques requêtes qui ne respectent pas le robots.txt ne me semble pas être une bonne défense à l'heure actuelle, même si j’aimerai que ce soit le cas, et qu'on remette un peu d'ordre dans ce far west de l'entrainement des IA.

            Tu parles de l'heure actuelle et je suis d'accord avec toi.

            Personnellement je pensais adapter la loi pour couvrir notamment le premier point. Cela ne me semble pas insurmontable.

        • [^] # Re: robot.txt

          Posté par  (site web personnel) . Évalué à 9 (+9/-3).

          Perso, ça me choque un peu qu'on arrive à finalement dire "faudrait une gestion des droits de copie" (aka des DRMs) sur Linuxfr.

          Si l'indexation d'un site entraîne des pannes, on a déjà des lois pour ça comme par exemple la loi 323-1 du code pénal français, qui est utilisé pour punir les délits du genre piratage, mais qui va couvrir aussi un usage excessif d'un système informatique.

          Donc si les gens veulent lutter contre ça, il y a les outils. Et c'est pas une loi de plus qui va changer grand chose si on utilise pas les lois existantes, tout comme c'est pas une loi de plus qui va être efficace si les lois existantes ne sont pas appliqués ou applicables ou efficaces.

          (mais bon, comme le but de Drew Devault, c'est avant tout de gueuler et d'avoir du pognon, forcément, il va pas passer par la solution en question)

          • [^] # Re: robot.txt

            Posté par  (site web personnel) . Évalué à -3 (+1/-6).

            (mais bon, comme le but de Drew Devault, c'est avant tout de gueuler et d'avoir du pognon, forcément, il va pas passer par la solution en question)

            Et ne pas oublier qu'il est une personne ultra arrogante, fermée d'esprit et pleurnicharde. J'invite toute personne sensée à rester loin de tout projet où il est impliqué.

            git is great because linus did it, mercurial is better because he didn't

            • [^] # Re: robot.txt

              Posté par  (site web personnel) . Évalué à 5 (+2/-0).

              Je suis pas d'accord, même si il a une personnalité clivante, il reste quand même quelqu'un qui fait des choses (sourcehut, etc).

              Je pense juste qu'on devrait pas porter aux nues les gueulards sans faire preuve d'esprit critique, et j'ai quand même le sentiment que quand ses propos sont relayés, il y a assez souvent beaucoup à relativiser.

          • [^] # Re: robot.txt

            Posté par  . Évalué à 6 (+5/-1).

            Et oui, comme toujours 'chercher une solution technique à un problème "social"' c'est mal barré.

            Il est clair que ces bots sont des pillards qui ne respectent pas le lois (ils s'autorisent à siphonner des montagnes d'œuvre protégées pour les régurgiter, y compris quand c'est explicité dans les clauses des sites et des formes automatiquement interprétables comme robot.txt)…

            Ce qu'explique DeVault c'est que ça fait perdre beaucoup d'argent aux exploitants des serveurs (surtout les petits y laissent des plumes). L'argent, ce n'est plus un problème technique.

            Le FBI pouvait débouler pour mettre la grosse pression à A. Schwarz pour quelques milliers d'articles de sciences.

            Mais ça ne bouge plus… parce que c'est devenu la jungle des oligarques qui ont l'oreille de Trump ou de Macron (et autres) ?

            • [^] # Re: robot.txt

              Posté par  (site web personnel) . Évalué à 2 (+2/-3).

              Ce qu'explique DeVault c'est que ça fait perdre beaucoup d'argent aux exploitants des serveurs (surtout les petits y laissent des plumes). L'argent, ce n'est plus un problème technique.

              Il ne parle pas d'argent du tout. Et vu ses autres postes (exemple, celui sur le FOSDEM ou il dit "notre argent et notre labeur" en parlant des gens qui sont venus sur le fediverse, alors qu'il n’héberge aucun serveur, qu'il a pas bossé sur un serveur ni rien et qu'il s'est barré du fediverse en 2020), je prendrais pas vraiment ça comme argent comptant ses affirmations.

              Je suis aussi sysadmin de profession, et j'ai clairement pas les soucis qu'il a avec des bots de scraping. J'ai pas le souci sur les serveurs mailman, j'ai pas le souci sur les instances wordpress ou les instances discourse. Mais en même temps, je suis clairement pas son pote, donc je suppose que je rentre pas dans "All of my sysadmin friends are dealing with the same problems".

              Et pourtant, je vois bien qu'il y a des bots qui passent pour indexer certains trucs comme partout, même sur ma forge personnelle qui tourne sur une VM sous mon bureau. Mais voila, les infras tombent pas, j'ai pas du rajouter de la ram ou du CPU à cause de ça, et j'ai rien fait de particulier, à part ne pas tenter de faire tourner des infras sans espace pour tenir la charge (genre, j'ai pas trouvé que ça serait une bonne idée de tout mettre sur une RPi sorti de la poubelle).

              Ensuite, c'est sur que si tout le monde prends des softs non pensés pour être mis sur l'internet et découvre que "oups, ça suffit pas", ça va pas aider. Par exemple, c'est un peu ce qui arriver à codeberg qui a découvert que "oups, on peut scripter l'envoi massif de notification". Ou Gnome avec gitlab, qui a découvert qu'il y a des spammeurs qui vont ouvrir des comptes juste mettre un lien dans un README.md (et pareil, Gitlab, c'est pour ta forge interne ou tu as à priori pas le souci d'un spammeur directement dans ta structure).

              Le FBI pouvait débouler pour mettre la grosse pression à A. Schwarz pour quelques milliers d'articles de sciences.

              Oui, parce que quelqu'un a porté plainte, ce qui n'a pas l'air d'être le cas ici. Ouais, ça coûte un peu de thune et du temps, mais il y a même pas l'ombre d'un mouvement.

              Mais bon, le but de l'article n'est pas de résoudre un probléme, ni même d'aider à résoudre le probléme, c'est juste se positionner et se mettre en avant.

              • [^] # Re: robot.txt

                Posté par  (site web personnel) . Évalué à 4 (+2/-1).

                Je suis aussi sysadmin de profession

                C'est quand même un souci d'avoir un internet de plus en plus fermé aux sysadmins du dimanche.

                Un peu comme si on laisse des gangs dans les rues agresser les gens en leur expliquant vous n'avez qu'à apprendre un sport de combat ou faire appel à une société de sécurité

                Le post ci-dessus est une grosse connerie, ne le lisez pas sérieusement.

                • [^] # Re: robot.txt

                  Posté par  (site web personnel, Mastodon) . Évalué à 2 (+2/-3).

                  Un peu comme si on laisse des gangs dans les rues agresser les gens en leur expliquant vous n'avez qu'à apprendre un sport de combat ou faire appel à une société de sécurité…

                  Ben c’est bien ce qui s’est passé, se passe encore pour les femmes : « si vous ne voulez pas être agressées, habillez-vous comme ceci ou cela, ne sortez pas seule le soir, ne soyez pas jolie, ne soyez pas jeune, ne soyez pas polie avec les hommes, ne sortez pas sans un homme pour vous protéger, etc. »

                  « Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.

                • [^] # Re: robot.txt

                  Posté par  (site web personnel) . Évalué à 0 (+1/-4).

                  C'est un souci, mais c'est rien de nouveau. On va pas me faire croire que l'internet est devenu tout d'un coup plus nocif depuis 1 ou 2 ans. Des bots qui scrapent, il y en a depuis toujours et suffisamment pour que cloudflare (et d'autres) soient largement rentable depuis 15 ans sur la protection des sites web.

                  Et Drew n'est pas un sysadmin du dimanche au sens ou héberger ses serveurs est son taf. Maintenant, c'est sur que si tu considère que sysadmin, c'est un taf facile qui peut être fait par n'importe quel codeur (une opinion que les codeurs ont assez souvent), découvrir la réalité doit faire un choc, mais peut être que le souci, c'est aussi de nier que sysadmin, c'est un taf.

                  Un peu comme si on laisse des gangs dans les rues agresser les gens en leur expliquant vous n'avez qu'à apprendre un sport de combat ou faire appel à une société de sécurité…

                  Si on reprends ta métaphore, alors ce que fait Drew, c'est quand même reprendre un discours d’extrême droite, en exagérant les soucis qu'il a, en expliquant que l'insécurité est partout (vu qu'il dit bien que tout ses amis ont des emmerdes), en ne parlant pas du tout de l'existant ni en faisant le moindre appel à les utiliser, et implicitement, en demandant une plus grande fermeté via des lois qui sont quand même à priori avec un certain potentiel liberticide.

                  Car bon, des solutions techniques contre le scraping, ça existe, y a des services comme cloudflare et d'autres. Et si des services externes ne vont pas, il y a des solutions comme mod_access_dnsbl + dronebl, etc, etc. Il y a moyen de faire des choses.

                  Si on veut faire plus, ça serait quoi, un contrôle législatif de qui peut lire ou pas un contenu, un permis pour avoir des programmes qui scrapent l'internet, comme pour les voitures et les motos ? Avoir besoin d'une licence comme pour les ondes radios, car on considère que c'est un commun à arbitrer ?

                  Car au final, soit l’opérateur du site décide de la vie de son site, et en effet, l'autonomie requiert d'avoir des compétences pour faire ce choix, soit il y a délégation et obligation via quelqu'un d'autre, et soit c'est l'état (ce qui a un certain nombre de souci), soit c'est un groupe qui n'est pas l'état, donc une société privé (qui a aussi des soucis), ou autre chose, et personne ne se bouge pour l'autre chose.

                  Et c'est bien parce que justement toutes les solutions vont à l'encontre de l'ethos libertaire du libre que personne ne propose rien et se contente de chouiner.

              • [^] # Re: robot.txt

                Posté par  . Évalué à 3 (+1/-0).

                Je suis aussi sysadmin de profession, et j'ai clairement pas les soucis qu'il a avec des bots de scraping. J'ai pas le souci sur les serveurs mailman, j'ai pas le souci sur les instances wordpress ou les instances discourse.

                Et ça prouve quoi ? tu fais une erreur de raisonnement là. Les robots d'IA ne sont pas lancés au hasard sur les serveurs. Elles ciblent des types de contenus. Par exemple :

                • Si on veut analyser du code moderne, potentiellement bien foutu, SourceHut me parait une bonne piste vu les gens qui l'utilisent.
                • Quand les IA visitent intensivement le site de ma copine, ce qui les intéresse c'est le contenu informatif sur les jeux et jouets pour enfant, ce qu'on raconte autour, pas la fiche produit qui est de l'info catalogue.

                Ce n'est pas qu'une histoire de compétences en gestion de serveur, on ne peut pas accepter que le traffic soit multiplié 2 ou par 10 (ma copine) à cause des IA, la bande passante n'est pas gratuite.

                • [^] # Re: robot.txt

                  Posté par  (site web personnel) . Évalué à 4 (+1/-0).

                  Les robots d'IA ne sont pas lancés au hasard sur les serveurs. Elles ciblent des types de contenus

                  Je suis pas sur de voir en quoi ton affirmation sans substance serait plus juste que celle que tu récuses.

                  Pour commencer, tu supposes que des robots indexent Sourcehut (et d'autres) pour avoir du code. Dans ce cas, pourquoi passer par https et pas via simplement git, qui a le bon goût d'être plus facile pour tout le monde ? Plus facile pour l’hébergeur car pas besoin de parser les infos de git pour afficher de la page, plus facile pour les scrapers, car pas besoin de nettoyer la page. Pas besoin de reconstituer le code via la structure ni rien.

                  Et on sait que ça passe par https, car l'article dit: "If you think these crawlers respect robots.txt then you are several assumptions of good faith removed from reality".

                  Mais ça illustre aussi un des soucis des discussions en cours, c'est que personne ne parle vraiment de la chaîne de production exacte, et on mets tout dans un gros nuage "IA" comme dans les diagrammes réseaux.

                  En l’occurrence, si tu veux entraîner une IA générative, il te faut du contenu pour pondre les stats (aka, le modèle). Il y a assez peu d'acteurs qui ont les thunes pour ça, vu que ça coûte super cher. Il y a beaucoup plus d'acteurs qui vont prendre des modèles existants et faire des produits autour, et c'est sans doute pas ces acteurs qui scrapent quoi que ce soit.

                  Mais il y a aussi un 3eme groupe, les gens qui vendent des données (avec ou sans le tagging qui va bien, un point aussi oublié) au groupe des gens qui entraînent des modéles. Et pour moi, c'est ce groupe qui contient les gens qui scrapent. De ce qu'on voit discuté ici ou la, c'est des bots qui sont au pire malicieux (pas de respect du robot.txt), au mieux codé n'importe comment. On voit que les bots mentent parfois sur le useragent (mais pas tous), qu'ils passent par des cloud providers pour avoir des IPs en masse (donc ALibaba, GCP, AWS, Azure, etc), voir par des connexions résidentiels. C'est ce qui est dit dans l'article de Drew.

                  Fondamentalement, ce que je vais supposer, c'est qu'il ne s'agit pas des gros acteurs du style Google ou Microsoft. Les 2 ont des moteurs de recherches (Bing, Google Search) donc des données et des compétences en interne sur le sujet, voir une forge bien rempli (github) si on reste sur la question du code. Il n'y a sans doute pas la liberté institutionnel de faire n'importe quoi à grande échelle sans revue. Ensuite, il y a d'autres gros, comme AWS qui ne se préoccupe beaucoup des questions éthiques, mais je ne voit pas non plus la boite passé par des connexions résidentielles (cad des machines sans doute piratés), ne serait que parce que c'est pas gratuit, et ça laisse des traces.

                  Du coup, si c'est pas les gros acteurs, il reste qui dans le domaine économique ? Les beaucoup moins gros (en taille). Les petites startup qui veulent faire du pognon rapidement, les groupes criminels mais pas trop qui vendent le fait de spammer les gens, qui font des escroqueries téléphoniques via des centres d'appel ou ils ferment les yeux. Et je mets OpenAI dans le lot aussi en tant que start-up (au niveau de la structure, pas du financement)

                  Il y a quand même beaucoup qui colle. Dans ce genre de "petite boite", tu va avoir du code écrit sans supervision, parce que c'est une petite boite. Tu va avoir des gens avec un esprit de magouilleur pour gagner un peu de thunes (d’où les changements d'IP, d'user agent, etc). Le code va être pourri car un ingé senior va pas forcement vouloir aller la bas. Et bien sur, sans doute la même relativité éthique que le reste. Il y a suffisamment de pays économiquement dans la merde pour que ça arrive.

                  Et on le voit, c'est pas le discours qu'on a, car implicitement, on blâme les GAFAMs/Big Tech. Bien sur, ce discours n'est pas arrivé par hasard, car ce sont les dites GAFAMs qui font des annonces et occupent médiatiquement le champ, et voir pour Mata, qui se prennent des procés. C'est aussi des entités connus, qu'on peut facilement blâmer pour ce qui va pas.

                  Mais le fait de ne pas penser ces scrapers comme des entités qui commettent un crime fait que personne ne semble se poser la question d'impliquer la justice (ou alors, ne va pas suffisamment loin dans l'idée, cf ce thread).

                  Une fois que tu commences à traiter ça comme un DDoS, et pas comme une façon de venir chouiner sur un bout de l'industrie comme Drew Devault ou Niccolò Venerandi, alors je pense que ça peut avancer.

                  Ce n'est pas qu'une histoire de compétences en gestion de serveur, on ne peut pas accepter que le traffic soit multiplié 2 ou par 10 (ma copine) à cause des IA, la bande passante n'est pas gratuite.

                  Mais en l’occurrence, le souci évoqué dans l'article n'est pas la bande passante, mais le temps d'admin sys (explicitement) et le CPU (implicitement). Et je ne peux pas parler pour Sourcehut, mais dans le cas de Pagure et du Gitlab de GNOME (jusqu'à son déplacement sur AWs) qui sont cité dans un autre article, la bande passante n'était sans doute pas le souci. Si c'était le cas, je l'aurais sans doute su car quand la bande passante du DC ou sont les 2 services est saturé, j'ai assez vite des alertes car mes machines sont aussi dans le même DC et comme je suis sur le papier responsable technique de ce bout de DC, j'ai aussi des gens qui me contactent plus vite que Nagios.

                  Ce qui coinçait pour Pagure (vu que j'ai discuté avec les autres admins), c’était l'usage CPU, à savoir que les bots indexent des pages extrêmement coûteuses à générer coté serveur, et que du coup, le serveur ne peut plus faire son taf. Car quand les services sont pas en carafe ou lent, on va pas se mentir, on regarde quand même assez peu.

                  C'est aussi ce que je comprends de Sourcehut, car l'article dit: "These bots crawl everything they can find, robots.txt be damned, including expensive endpoints like git blame, every page of every git log, and every commit in every repo".

                  Que la BP soit un souci pour d'autres, j'en doute pas, c'est documenté. Par exemple, la BP a été mentionné pour Readthedocs dans l'article de libre.news de Niccolò Venerandi, (même si mais ce dernier a aussi clairement fait du remplissage vu qu'il ressort aussi le lien vers le blog de Daniel, et j'ai déjà dit ce que j'en pense).

                  L'article de Libre.news pointe aussi que RTD (ReadTheDocs) a réussi en contactant une entreprise responsable à avoir une correction et vise un remboursement, chose qui n'est également jamais discuté et qui pourtant semble marcher, ce qui me renforce dans mon analyse, des gens veulent râler avant tout.

                  • [^] # Re: robot.txt

                    Posté par  . Évalué à 2 (+0/-0).

                    Je suis pas sur de voir en quoi ton affirmation sans substance serait plus juste que celle que tu récuses.

                    Tu as raison :-)

                    Sur le reste, dans mes logs, les bots "nuisibles" identifiés sont ceux des IA (cf la liste du projet https://github.com/ai-robots-txt/ai.robots.txt). Et c'est vrai , le temps CPU est le plus nuisible. La bande passante j'enb parlais parce que c'est un coût facile à mesurer.

                    Merci pour tes remarques.

      • [^] # Re: robot.txt

        Posté par  (site web personnel) . Évalué à 10 (+8/-0).

        Un autre exemple avec le droit sui generis des bases de données ?
        https://europa.eu/youreurope/business/running-business/intellectual-property/database-protection/index_fr.htm

        On peut faire des requêtes sur une base de données, mais pas multiplier les requêtes pour extraire l'intégralité de la base et la réutiliser ailleurs.

        • [^] # Re: robot.txt

          Posté par  . Évalué à 5 (+3/-1).

          Le problème, c'est que les lois ne te protègent que des gens qui sont soumis à ces lois, en théorie ou en pratique.

          Si tu veux pouvoir poursuivre en justice un malotru européen, tu peux tenter le coup. Mais si c'est un ado Philippin qui passe par un proxy aux Malouines, tu as autant de recours légaux que si tu portes plainte contre une météorite pour homicide involontaire.

          Il ne semble pas exister d'autres solutions que de protéger les serveurs de manière logicielle, et sélectionnant les requêtes en fonction de critères qui ne semblent pas impossible à définir, en espérant de ne pas avoir trop de faux positifs.

          • [^] # Re: robot.txt

            Posté par  (site web personnel, Mastodon) . Évalué à 7 (+4/-0). Dernière modification le 20 mars 2025 à 15:05.

            Si tu veux pouvoir poursuivre en justice un malotru européen, tu peux tenter le coup. Mais si c'est un ado Philippin qui passe par un proxy aux Malouines, tu as autant de recours légaux que si tu portes plainte contre une météorite pour homicide involontaire.

            Alors, si ça n’a pas changé (et je doute que ça ait changé d’ailleurs), le principe qui s’applique est celui où l’infraction est constatée. C’est pour ça que le RGPD s’applique aux sites américains par exemple et que certains sites américains ne sont pas accessibles en Europe pour ne pas avoir à se plier aux règles du RGPD. C’est aussi pour ça que les sites qui proposent des EPUB dans le domaine public ont souvent un script qui permet de bloquer (ou quel que soit le terme adéquat) les téléchargements d’internautes pour lesquels les œuvres ne sont pas encore dans le domaine public. Les recours légaux existent. Après…

            De fait, ton ado philippin peut être poursuivi en justice. De fait aussi, héberger son site web ailleurs qu’en France par exemple, ne fait pas que tu peux y mettre du contenu illicite selon la loi française en toute impunité.

            « Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.

    • [^] # Re: robot.txt

      Posté par  . Évalué à 4 (+2/-0).

      Le fichier Robots.txt c'est efficace si les robots des IA obtempèrent ET s'il est à jour. Aucun de ces critères n'est facile à respecter dans la courses aux IA. En plus les IA scannent aussi avant de se faire connaître.

      Pour les robots connus, on est vite obligé de doubler le fichier Robots avec des directives serveur.

      Il y a un projet Github pour garder une liste à jour:
      https://github.com/ai-robots-txt/ai.robots.txt

      Sur le petit serveur de ma copine, les IA sont une terrible plaie, qui multiplie considérablement la charge (fois 10 et plus).

      • [^] # Re: robot.txt

        Posté par  (site web personnel, Mastodon) . Évalué à 6 (+4/-0).

        ça dépend ce que tu veux faire.

        Par exemple sur mon site web, le robots.txt met un crawl-delay de 5 minutes pour tout le monde par défaut. Je n'ai pas besoin que les robots indexent mon site plusieurs dizaines de fois par jour, le contenu change assez peu.

        Si les robots LLM respectaient ce réglage, je n'aurait pas de problème de charge CPU ou de bande passante (j'ai d'autres problèmes personnels avec les LLM mais c'est une autre histoire). ça règle le deuxième problème: ce réglage étant valide pour tout le monde, il n'y a pas de "course".

        Il en est de même pour les liens avec rel="nofollow" que les robots ne devraient normalement pas utiliser (et je suppose que les gens qui se plaignent de problème de charge CPU sur leurs applis web sont un minimum compétents et ont déjà mis en place ce type de mesures pour éviter que les robot scannent des choses qui n'ont pas besoin de l'être).

        Sauf que non: certains de ces robots ignorent complètement le robots.txt, d'autres ignorent le crawl-delay, d'autres refusent un crawl-delay supérieur à 10 secondes. Donc je les ai exclus par d'autres moyens, parce que ce mois ci c'était 2 adresses IP qui représentaient plus de 50% du traffic arrivant chez moi.

        • [^] # Re: robot.txt

          Posté par  . Évalué à 3 (+1/-0).

          Ce que je sous entendais, c'est que les robots d'IA ne respectent rien. Le projet Github que j'ai indiqué en parle dans ses multiples liens de référence. Donc on les bloque avec le serveur web.

    • [^] # Re: robot.txt

      Posté par  (site web personnel) . Évalué à 4 (+2/-0).

      Je crois que ce n'est plus vraiment respecté, et a été étendu / remplacé par :

      • des entêtes http, par exemple X-Robots-Tag "noindex, nofollow";
      • des entrêtes html, par exemple <meta name="robots" content="noindex,nofollow">

      Apporter un peu de structure à ce fichier crée aux débuts d'internet, c'est positif.

  • # La BnF et les sites sous SPIP

    Posté par  (site web personnel, Mastodon) . Évalué à 6 (+3/-0).

    Pour info, puisqu'il a été question de robots.txt.

    Le site de support du CMS SPIP, discuter.sip.net a reçu récemment une requête de la BnF concernant l'archivage des sites SPIP.

    La BnF collecte le web français et les archive depuis 1996. Je cite :

    À ce titre, nous archivons de nombreux sites utilisant le CMS SPIP, afin d’en conserver la mémoire. Malheureusement, nous avons constaté à plusieurs reprises un blocage de sécurité de nos robots de collecte. Ce blocage est en lien avec la présence du mot « bot » dans le user agent de notre robot et intervient au niveau de l’écran de sécurité.

    Dans les réponses, on signale que les robots sont bloqués quant le site est surchargé.

    « Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.

  • # La solution de Xe Iaso

    Posté par  . Évalué à 7 (+5/-0). Dernière modification le 19 mars 2025 à 17:45.

    Xe Iaso a été confrontée au même problème avec le robot AI d'Amazon et a mis en place un reverse proxy qui effectue une validation "preuve de travail" avant d'accéder à la ressource demandée.

  • # Menace

    Posté par  (Mastodon) . Évalué à 4 (+2/-1).

    I will never work with you again, and I will remember which side you picked when the bubble bursts.

    Ça c'est de la menace. Je pense qu'ils tremblent tous.

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.