• # robot.txt

    Posté par  (site web personnel) . Évalué à 4 (+2/-1).

    Robot.txt a été créé exactement pour cette raison du temps des moteurs de recherches. Est-ce que l'on connait la légalité de ne pas le respecter ?

    Certains propriétaires utilisent leur application pour faire les requêtes depuis les smartphones ! Cela devient n'importe quoi.

    "La première sécurité est la liberté"

    • [^] # Re: robot.txt

      Posté par  . Évalué à 3 (+1/-0).

      Si on veut imiter la connerie humaine on est bien obligé d'imiter les connards.
      Du coup probablement qu'un jour on en arrivera à légiférer là dessus. Il faudra pouvoir identifier les visiteurs avec leur empreinte génétique dans les entêtes pour que ce soit applicable. On n'a pas le choix voyez vous.

    • [^] # Re: robot.txt

      Posté par  (site web personnel) . Évalué à 4 (+2/-0).

      Un loi sur un tel sujet technique? J'ai du mal à voir. A la limite le fait de ne pas rendre indisponible un autre système d'information, ça c'est légalisable, et là on pourrait creuser en disant qu'il est admins que si un robots.txt existe, alors il est communément admis que le respecter est une bonne chose.

      Après le site tu le mets bien à disposition du public, donc en quoi une requête d'un outil serait moins légitime (point de vue légal) que celle d'un autre utilisateur? Après je parle bien d'une requête, et pas d'une armée mal codée qui relis les pages encore et encore alors qu'il n'y a aucune modification dessus.

      Je ne dis pas que l'aime ce qu'ils font, mais je pense que l'assise légale pour les empêcher ne doit pas être énorme. Quand on voit que ces sociétés font du respect de la propriété intellectuelle des autres, je pense que le soucis de mettre au tas les sites n'est que le cadet de leurs problèmes malheureusement.

      • [^] # Re: robot.txt

        Posté par  (site web personnel) . Évalué à 5 (+2/-0).

        Après le site tu le mets bien à disposition du public, donc en quoi une requête d'un outil serait moins légitime (point de vue légal) que celle d'un autre utilisateur? Après je parle bien d'une requête, et pas d'une armée mal codée qui relis les pages encore et encore alors qu'il n'y a aucune modification dessus.

        On peut attaquer l'usage plutôt que la requête en elle même.

        L'objectif est de collecter de l'info pour en faire quelque chose. Un service autour d'un LLM, l'apprentissage du LLM, ou alimenter la BDD d'un moteur de recherche. On pourrait arguer que le propriétaire du serveur ne souhaite pas que le contenu certes public puisse alimenter ces services et que on devrait pouvoir respecter ce choix.

        Ou de même attaquer non pas la requête individuelle qui a un coût dérisoire mais la conséquence d'un suivi agressif qui fait augmenter les coûts d'hébergement de manière significatives voire réduire les performances du système et peut s'apparenter de fait à un DDOS que le respect du souhait initial permettrait d'éviter.

        La loi pourrait s'adapter autour de ça. Après tout on a bien des lois plus difficiles à gérer que ça dans le fond.

        • [^] # Re: robot.txt

          Posté par  (site web personnel) . Évalué à 2 (+0/-0).

          Je ne suis pas certain pour le premier point, car il ne me semble que ce n'est pas encore tranché si l’apprentissage des LLM c'est du fair-use ou pas. Si c'est du fair-use, si tu as posté publiquement il n'y a pas d'accès non autorisé, donc là c'est mal barré.

          Mais tout à fait d'accord avec le second point, on arrive à un DDOS au final, et ça c'est clairement répréhensible vu le volume.

          Juste que répondre sur quelques requêtes qui ne respectent pas le robots.txt ne me semble pas être une bonne défense à l'heure actuelle, même si j’aimerai que ce soit le cas, et qu'on remette un peu d'ordre dans ce far west de l'entrainement des IA.

          • [^] # Re: robot.txt

            Posté par  (site web personnel) . Évalué à 4 (+1/-0).

            Juste que répondre sur quelques requêtes qui ne respectent pas le robots.txt ne me semble pas être une bonne défense à l'heure actuelle, même si j’aimerai que ce soit le cas, et qu'on remette un peu d'ordre dans ce far west de l'entrainement des IA.

            Tu parles de l'heure actuelle et je suis d'accord avec toi.

            Personnellement je pensais adapter la loi pour couvrir notamment le premier point. Cela ne me semble pas insurmontable.

        • [^] # Re: robot.txt

          Posté par  (site web personnel) . Évalué à 3 (+3/-3).

          Perso, ça me choque un peu qu'on arrive à finalement dire "faudrait une gestion des droits de copie" (aka des DRMs) sur Linuxfr.

          Si l'indexation d'un site entraîne des pannes, on a déjà des lois pour ça comme par exemple la loi 323-1 du code pénal français, qui est utilisé pour punir les délits du genre piratage, mais qui va couvrir aussi un usage excessif d'un système informatique.

          Donc si les gens veulent lutter contre ça, il y a les outils. Et c'est pas une loi de plus qui va changer grand chose si on utilise pas les lois existantes, tout comme c'est pas une loi de plus qui va être efficace si les lois existantes ne sont pas appliqués ou applicables ou efficaces.

          (mais bon, comme le but de Drew Devault, c'est avant tout de gueuler et d'avoir du pognon, forcément, il va pas passer par la solution en question)

          • [^] # Re: robot.txt

            Posté par  (site web personnel) . Évalué à -3 (+0/-5).

            (mais bon, comme le but de Drew Devault, c'est avant tout de gueuler et d'avoir du pognon, forcément, il va pas passer par la solution en question)

            Et ne pas oublier qu'il est une personne ultra arrogante, fermée d'esprit et pleurnicharde. J'invite toute personne sensée à rester loin de tout projet où il est impliqué.

            git is great because linus did it, mercurial is better because he didn't

            • [^] # Re: robot.txt

              Posté par  (site web personnel) . Évalué à 5 (+2/-0).

              Je suis pas d'accord, même si il a une personnalité clivante, il reste quand même quelqu'un qui fait des choses (sourcehut, etc).

              Je pense juste qu'on devrait pas porter aux nues les gueulards sans faire preuve d'esprit critique, et j'ai quand même le sentiment que quand ses propos sont relayés, il y a assez souvent beaucoup à relativiser.

      • [^] # Re: robot.txt

        Posté par  (site web personnel) . Évalué à 10 (+7/-0).

        Un autre exemple avec le droit sui generis des bases de données ?
        https://europa.eu/youreurope/business/running-business/intellectual-property/database-protection/index_fr.htm

        On peut faire des requêtes sur une base de données, mais pas multiplier les requêtes pour extraire l'intégralité de la base et la réutiliser ailleurs.

    • [^] # Re: robot.txt

      Posté par  . Évalué à 4 (+2/-0).

      Le fichier Robots.txt c'est efficace si les robots des IA obtempèrent ET s'il est à jour. Aucun de ces critères n'est facile à respecter dans la courses aux IA. En plus les IA scannent aussi avant de se faire connaître.

      Pour les robots connus, on est vite obligé de doubler le fichier Robots avec des directives serveur.

      Il y a un projet Github pour garder une liste à jour:
      https://github.com/ai-robots-txt/ai.robots.txt

      Sur le petit serveur de ma copine, les IA sont une terrible plaie, qui multiplie considérablement la charge (fois 10 et plus).

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.