Lien Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives - CloudFlare

Posté par antistress (site web personnel) le 04 août 2025 à 22:58.

Étiquettes :

août

2025

https://www.osnews.com/story/142981/perplexity-is-using-stealth-undeclared-crawlers-to-evade-website-no-crawl-directives/

# sans dec'

Posté par steph1978 le 04 août 2025 à 23:57. Évalué à 7.

J'aurai du m'en douter car j'ai déjà vu des toilettes sales alors qu'il y avait un écriteau qui disait de les laisser propres…

Du coup, remplacer tous les cadenas par un petit mot "merci de ne pas voler", c'est mort aussi, non ?
- [^] # Re: sans dec'
  
  Posté par Glandos le 05 août 2025 à 06:58. Évalué à 10.
  
  C'est quand même un peu différent. Dans le cas des petits panneaux, on s'adresse à la masse, et statistiquement, il y a toujours des individus qui ne respectent pas la règle morale, ou la loi, etc. C'est un peu pour cette raison qu'une force de police est nécessaire.
  
  Là, c'est la masse qui s'adresse à Perplexity, et potentiellement une dizaine d'autres, peut-être plus, mais c'est l'ordre de grandeur. C'est quand même pas compliqué. D'ailleurs, Google s'en est très bien sorti pendant presque 30 ans en respectant ces règles.
  
  Des gros malfrats (parce que oui, en France, c'est illégal de mettre à genoux des systèmes automatisés de traitement de données sans le consentement de leur propriétaire) qui menace les petites gens, on est plus sur le modèle de la mafia je dirais.
  - [^] # Re: sans dec'
    
    Posté par raphj (site web personnel) le 05 août 2025 à 09:18. Évalué à 4. Dernière modification le 05 août 2025 à 09:19.
    
    D'accord dans le fond, un point à détailler quand même :
    
    D'ailleurs, Google s'en est très bien sorti pendant presque 30 ans en respectant ces règles.
    
    Oui, mais ils ont assis un monopole, si tu n'étais pas référencé par Google c'était un gros problème. Les robots.txt contenaient des règles spécifiquement pour permettre à Google de crawler le site, et si tu n'étais pas Google et que tu voulais respecter les règles, tu étais bloqué.
    
    Donc ils s'en sont sorti mais en étant incontournable.
    
    (écrit au passé mais je suppose que c'est toujours vrai aujourd'hui)
    - [^] # Re: sans dec'
      
      Posté par Gil Cot ✔ (site web personnel, Mastodon) le 05 août 2025 à 10:34. Évalué à 4.
      
      Parle-t-on de la même chose ?
      
      Les robots.txt contenaient des règles spécifiquement pour permettre à Google de crawler le site,
      
      Pas compris
      
      et si tu n'étais pas Google et que tu voulais respecter les règles, tu étais bloqué.
      
      “It is seldom that liberty of any kind is lost all at once.” ― David Hume
      - [^] # Re: sans dec'
        
        Posté par raphj (site web personnel) le 05 août 2025 à 12:23. Évalué à 4.
        
        Parle-t-on de la même chose ?
        
        Je pense que oui
        
        Les robots.txt contenaient des règles spécifiquement pour permettre à Google de crawler le site,
        
        Pas compris
        
        Beaucoup de site web interdis(ai)ent le crawl automatique par des robots, sauf le robot indexeur de Google. Ce qui fait que si tu montes ton moteur de recherche alternative, tu es bloqué, ou alors il faut te faire passer pour Google.
        
        [^] # Re: sans dec'
        
        Posté par Gil Cot ✔ (site web personnel, Mastodon) le 06 août 2025 à 00:25. Évalué à 2.
        
        Bah comme répondu plus loin, le fichier n’est pas créé pour un (ou deux) moteur(s) ; mais tu parts d’un mésusage pour généraliser que ça ne doit contenir que des règles pour un (ou deux). Donc nous ne parlions pas de la même chose : je n’ai jamais ciblé de gogole et ne comprends pas le commentaire qui réclame ce genre de bousillage.
        
        “It is seldom that liberty of any kind is lost all at once.” ― David Hume
        
        [^] # Re: sans dec'
        
        Posté par raphj (site web personnel) le 06 août 2025 à 08:55. Évalué à 2. Dernière modification le 06 août 2025 à 08:57.
        
        tu parts d’un mésusage pour généraliser
        
        Bah non. C'est pas moi qui généralise, je décris un mésusage généralisé. Mésusage généralisé qui rend la remarque "Google au moins respecte robots.txt" insuffisante. Je ne dis pas que tout le monde fait ça, mais suffisamment de gens le font pour que ça soit potentiellement problématique.
        
        C'est comme dire en 2005 "Au moins, IE affiche bien les sites". La réponse serait "bah oui, les gens ciblent spécifiquement IE dans leur HTML". La réponse à ça serait "ah oui mais tu généralises un mésusage, HTML n'est pas spécifique à IE". Bah… :-)
        
        (Sauf qu'en 2005, les acteurs en face étaient Firefox et Konqueror - là, c'est les bots AI et vraiment, dans le fond, je n'ai pas très envie de les défendre xD)
        
        qui réclame ce genre de bousillage
        
        Je ne comprends pas ce que tu dis ici. Je ne réclame rien, et certainement aucun bousillage. Désolé si c'était le ressenti, c'est que je n'ai pas bien réussi à rédiger mon message. Je ne suis pas dans une humeur confrontationnelle, et je le suis rarement. Je ne suis pas là pour ça. Encore une fois, en plus, le commentaire original allait essentiellement dans mon sens, aucune raison de bousiller quoi que ce soit.
        
        Je trouvais que l'argument méritait une réponse, quoi.
        
        [^] # Re: sans dec'
        
        Posté par raphj (site web personnel) le 06 août 2025 à 09:04. Évalué à 2. Dernière modification le 06 août 2025 à 09:04.
        
        Regarde par exemple https://kagi.com/bot
        
        If there is no rule targeting kagibot, but there is a rule targeting Googlebot, then Kagibot will follow the Googlebot directives.
        
        C'est exactement de ça que je parle. Tu es obligé de faire ce genre de contorsion et de ne pas respecter entièrement robots.txt à cause de ce que je dis si tu veux indexer le web aujourd'hui et que tu n'es pas Google. C'est comme le mode quirks des navigateurs qui émulent un vieux IE.
        
        Alors d'accord, entre ce contournement et ne rien respecter du tout de robots.txt, il y a une marche importante et significative.
    - [^] # Re: sans dec'
      
      Posté par xenom le 05 août 2025 à 11:47. Évalué à 4.
      
      robots.txt a été crée bien avant Google. Et ne contient pas (nécessairement) de règles spécifiques pour Google.
      Ce fichier défini juste une liste de pages du site qui sont autorisés ou interdites au robots, avec la possibilité effectivement d'autoriser ou non certains bots spécifiques.
      
      Le fait que Google soit devenu le moteur de recherche ultra majoritaire à sûrement incité certaines personnes à avoir des règles spécifique pour lui, mais pas forcément quelque chose de généralisé. Et ca ne change pas le fait que Google respectait le robots.txt depuis le début, bien avant qu'il soit majoritaire.
      - [^] # Re: sans dec'
        
        Posté par raphj (site web personnel) le 05 août 2025 à 12:42. Évalué à 3. Dernière modification le 05 août 2025 à 12:46.
        
        à sûrement incité certaines personnes à avoir des règles spécifique pour lui
        
        Tout mon argument repose sur le fait que c'est pas "sûrement certaines personnes", c'est "assurément", et "beaucoup de webmestres". On trouve des solutions à base de « autoriser Google et Bing et rien d'autre » à la pelle sur internet et énormément de monde le fait.
        
        Si tu n'es pas Google, ou à la limite Bing, respecter robots.txt (à la lettre) n'est pratiquement pas une option.
        
        Et ca ne change pas le fait que Google respectait le robots.txt depuis le début
        
        Bah ouais, mais l'aspect « si t'es pas google ou bing ça ne marche pas », ça change quand même tout.
        
        Oui, c'est vrai, Google a toujours respecté robots.txt. Au début, je suppose qu'ils étaient rares ou qu'ils ne bloquaient pas trop de choses. Ensuite, une fois qu'ils sont devenus majoritaires et que beaucoup de gens se sont mis à cibler Google spécifiquement, c'était évidemment facile de continuer à respecter robots.txt pour Google, mais en fait pour personne d'autre si tu voulais une indexation complète et de qualité.
        
        Donc oui, Google respecte robots.txt, mais c'est plus simple de respecter une règle quand elle est taillée spécifiquement pour toi.
        
        Ce n'est pas nécessairement de la faute de Google que les gens ont commencé à ne cibler que lui, quoi qu'ils auraient pu encourager un nom générique pour permettre de cibler tous les moteurs de recherche, mais l'avantage concurrentiel que ça leur a procuré ne les a pas forcément poussé à améliorer cet aspect…
        
        Bref, mon message c'est que si l'argument « les robots actuels sont irrespectueux alors que regarde, Google a toujours réussi à respecter robots.txt » parait sensé aux premiers abords, il ne tient pas si bien la route que ça.
        
        Même archive.org ne respecte plus robots.txt depuis longtemps.
        
        Après, indépendamment de ça, oui, les bots IA sont odieux. Comme beaucoup de gens, j'ai été obligé de tenter de les bloquer. Déjà, je ne souhaite pas que les IA s'entraînent sur mon travail (voeux pieux évidemment), et puis ils faisaient monter mon CPU de quelques degrés, quand même (surtout quand ils tombent sur Forgejo)… et je ne doute pas qu'ils auraient ignoré un « Pas de crawling IA siouplait » même sans le monopole de Google sans aucune hésitation.
# OSNews encore…

Posté par Voltairine le 05 août 2025 à 11:10. Évalué à 7.

Plutôt que donner un bref résumé issu d'un agrégateur, merci de donner le lien vers l'article complet :

https://blog.cloudflare.com/perplexity-is-using-stealth-undeclared-crawlers-to-evade-website-no-crawl-directives/
- [^] # Re: OSNews encore…
  
  Posté par antistress (site web personnel) le 05 août 2025 à 14:10. Évalué à 5. Dernière modification le 05 août 2025 à 14:10.
  
  Je comprends mais défends ce choix pour que tu comprennes icelui :
  * OSnews fait un travail de veille que je reprends, c'est ma façon de créditer le travail d'un autre.
  * ici OSnews fournit un extrait pertinent qui fait gagner du temps au lecteur qui ne souhaite pas aller plus loin.
  * Parfois OSnews contextualise et/ou donne un avis qui peut être un complément intéressant.
  * (les commentaires des lecteurices d'OSnews peuvent enrichir le contenu, d'autant que - comme avec phoronix - il y a un biais linuxien des articles et donc supposément du lectorat.)
  * Je n'ai pas de lien particulier avec OSnews.
  - [^] # Re: OSNews encore…
    
    Posté par Voltairine le 05 août 2025 à 17:32. Évalué à 3.
    OSnews fait un travail de veille que je reprends, c'est ma façon de créditer le travail d'un autre.
    La rubrique lien de linuxfr ne devrait contenir si possible que des liens direct vers les articles originaux. Sinon on va finir avec des liens vers un résumés de liens qui fait des liens vers des résume, qui…
    ici OSnews fournit un extrait pertinent qui fait gagner du temps au lecteur qui ne souhaite pas aller plus loin.
    Je ne considère pas que fournir les deux premier paragraphes constitue un extrait pertinent.
    * Parfois OSnews contextualise et/ou donne un avis qui peut être un complément intéressant.
    Il y aurait une réelle valeur ajoutée mais ce n'est pas du tout le cas ici.
    (les commentaires des lecteurices d'OSnews peuvent enrichir le contenu, d'autant que - comme avec phoronix - il y a un biais linuxien des articles et donc supposément du lectorat.)
    Des commentaires, en anglais, sur un extrait d'un article que la moitié des commentateurs n'aura pas lu, je ne suis pas sût que ce soit d'un grand intérêt ici.
    Je n'ai pas de lien particulier avec OSnews.
    Il ne maquerait plus que cela ;-)
    - [^] # Re: OSNews encore…
      
      Posté par wilk le 06 août 2025 à 10:23. Évalué à 1.
      
      La rubrique lien de linuxfr ne devrait…
      
      La rubrique lien est justement pratique quand on n'a pas le temps d'écrire un journal ou une dépêche. Et comme on ne peut mettre qu'un seul lien, il faut bien en choisir un.
      
      Rajouter d'autres liens dans les commentaires comme tu l'as fait est justement très bien pour compléter. C'était constructif, dommage d'en faire une critique au passage.
      - [^] # Re: OSNews encore…
        
        Posté par Voltairine le 06 août 2025 à 11:51. Évalué à 1.
        
        La rubrique lien de linuxfr ne devrait contenir si possible que des liens directs vers les articles originaux.
# Réponse de Perplexity

Posté par Benoît Sibaud (site web personnel) le 06 août 2025 à 15:38. Évalué à 6.

https://www.perplexity.ai/fr/hub/blog/agents-or-bots-making-sense-of-ai-on-the-open-web
- [^] # Re: Réponse de Perplexity
  
  Posté par Faya le 06 août 2025 à 22:12. Évalué à 5.
  
  Intéressant. Leur point de vue c'est que ces visites ne sont pas du crawling dans le but d'alimenter un modèle ou une base de données. Ils ne font que passer le contenu de la page à leur "Digital Assistant" pour qu'il affiche les données importantes à l'utilisateur qui a fait la demande.
  
  What are the latest reviews for that new restaurant?"—the AI doesn't already have that information sitting in a database somewhere. Instead, it goes to the relevant websites, reads the content, and brings back a summary tailored to your specific question. […]
  Perplexity’s user-driven agents do not store the information or train with it.
  
  Techniquement, on pourrait rapprocher ça d'un navigateur qui serait par exemple toujours en mode readability pour supprimer le contenu inutile. Ou d'un lecteur d'écran. Ou tout autre dispositif qui se connecte à un site et n'affiche pas exactement ce que le développeur avait prévu mais procède a une interprétation maison.
  Si j'ai le droit de faire un browser qui, lorsque je lui donne cette URL n'extrait que la div#atmogramme puis la converti en PNG noir et blanc puis la passe à mon LLM qui tourne en local pour me donner en une phrase la météo prévue demain, je me dis que Perplexity devrait pouvoir faire pareil (si c'est bien ce qu'ils font).
  
  J'aimerais bien l'avis de la communauté dessus… Comme il s'agit d'IA j'ai le sentiment que même ça ne serait pas acceptable.
  - [^] # Re: Réponse de Perplexity
    
    Posté par Renault (site web personnel) le 06 août 2025 à 22:40. Évalué à 6.
    
    Pour moi ils noient le poisson dans leur explication. La question n'est pas de savoir l'objectif final de leur robots qui parcourent le web, mais celui de leur impact sur les sites visités.
    
    Car non, ce n'est pas comme avant ou comme si un visiteur visitait ces sites à la main car sinon les sites ne verraient pas une telle surcharge de travail de la part de ces outils.
    
    En fait le soucis c'est que chaque requête d'un utilisateur va générer des visites plus ou moins utiles à d'autres sites.
    
    Avant c'était :
    
    Utilisateur -> Google -> lecture des résultats de Google avec résumé pertinent généré par Google sans visites en plus -> on clique sur les liens qui nous intéresse à la main avec lecture manuelle (opération lente)
    
    Avec Perplexity le résultat est :
    
    Utilisateur -> Perplexity -> Probablement un moteur de recherche interne pour le préfiltrage -> consulte et lit probablement des dizaines de pages et peut être sous pages en un temps record. Potentiellement certains liens ne seront pas exploités pour la réponse finale, et il n'est pas impossible qu'ils ne comptent pas pour l'établissement des revenus publicitaires des sites visités.
    
    Donc un utilisateur qui multiplie les requêtes génèrera des clics "cachés" plus élevés et plus vite que s'il avait cherché à la main. À multiplier cela par le nombre d'utilisateurs. Le tout sans financer une partie du trafic généré.
    - [^] # Re: Réponse de Perplexity
      
      Posté par Faya le 06 août 2025 à 23:44. Évalué à 4.
      
      Ouais mon hypothèse ne fonctionne que si le moteur va récupérer une page précise demandée par l'utilisateur. Comme un navigateur. Si ça déclenche un scan de tout le(s) site(s) qui pourraient avoir l'info puis trier et remonter 3 phrases, ça devient néfaste pour les sites visités.
      
      les sites ne verraient pas une telle surcharge de travail de la part de ces outils.
      
      Quand tu dis "ces outils" il faut voir desquels on parle. Parce que je suis sûr que nombre d'entre eux font du crawl "sale" = tout télécharger, quotidiennement, et entraîner les moteurs avec. Et les soucis actuels des différents sites et forges viennent plus de ceux là je pense. Mais la réponse de Perplexity n'est pas assez précise pour qu'on sache de quel côté ils penchent.
      - [^] # Re: Réponse de Perplexity
        
        Posté par Renault (site web personnel) le 06 août 2025 à 23:53. Évalué à 4.
        
        Le soucis c'est que tous les autres LLM proposant la possibilité de rechercher sur le Net ont une dualité entrainement / parcourir pour fournir les dernières infos basée sur la requête précise de l'utilisateur. Perplexity n'est pas seul sur ce créneau avec cette méthodologie.
        
        D'ailleurs est-ce que les éditeurs permettent de distinguer le rôle de chaque visite dans le détail ? Entre entrainement, BDD du moteur interne et recherche dynamique ? Je crois que Google et OpenAI ne permettent pas le distingo exprès pour éviter le filtrage.
        
        Du coup transparence tout ça comme souvent avec ces solutions finalement manque cruellement.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.