Ce n'est pas le premier hébergeur se plaignant de ce type d'attaque et arrivant à la conclusion que malgré le temps et les ressources allouées, la lutte est relativement vaine.
D'autre part je ne suis pas étonnée que les services pièges à gogos VPN soient responsables de la création d'immenses botnets.
LinuxFr.org a les mêmes problématiques : on a pu voir des mois où le bot bourrin de ClaudeAI faisait 50% de notre trafic, on voit de nombreux bots en général, etc. On passe moins temps qu'Octopuce à lutter contre parce qu'on est bénévoles et que notre serveur tient encore largement…
Je noterais aussi un biais psychologique : c'est trop cool, tes stats s'améliorent, plein de visites (plus de requêtes, plus d'IPs différentes, plus d'IPs différentes/tranche de temps - les visites, plus de trafic réseau, etc.).
Et pourtant à y regarder plus en détails, en se limitant au plus "vérifiable" (tousse tousse), les comptes authentifiés, on voit que les pénibles en créent une proportion énorme, largement détruite avant toute utilisation, que le reste sera éliminé rapidement en cas de spam ou après 1 an d'inactivité… bref au final les vrais nouveaux comptes de vrais gens baissent (ça se voit sur les stats via les "2060 comptes utilisés sur le site au cours des trois derniers mois", comprenant les comptes récents de pénibles donc).
Donc au final on a un gâchis énorme de ressources, caché par l'abondance (gros serveur, etc.) ou le financier indolore (réseau gratuit, etc.), masqué partiellement par un manque de temps à y consacrer et la flatterie des statistiques de fréquentation.
Et là on n'a parlé que des pénibles qui crawlent/parcourent comme des bourrins. Mais ensuite il y a les pénibles qui postent des contenus de pub/désinformation/etc., les pénibles qui reprennent les vieux noms de domaines pour poster qui pourrissant le passé, ceux qui placent leurs hyperliens partout, ceux qui envoient des dizaines de spams par semaine pour te proposer du spam (pardon un contenu invité payé), pour te vendre une pseudo faille de sécu sur ton site ou un lien cassé, etc. Bref tout un vaste écosystème de pénibles dont la pénibilité assistée par IA ne fait que croitre.
Cela représente une menace pour l'open web (être un site public expose aux problèmes évoqués, donc oourquoi rester public), du contrôle du lectorat (filtrer les humains des bots nécessiteraient des preuves d'identité numérique, ou bien filtrer par l'argent en faisant payer l'inscription), un souci écologique certain (gachis généralisé), un vaste écosystème interlope (fraude, arnaque, manipulation, etc.). Et même une explosion de la bulle IA ne stopperait pas ça (des LLM locaux feraient le job, et les gros méchants n'ont pas de soucis d'argent).
Bon, soyons raisonnables, comment on corrige le monde, parce que quelques uns ont grave tort sur Internet ?
on a pu voir des mois où le bot bourrin de ClaudeAI faisait 50% de notre trafic
De mémoire celui-ci est respectueux des directives du fichier robots.txt. C'est quand même la première barrière à mettre en place même si cela ne résout pas le problème.
Je ne vois pas comment ClaudeAI peut « défoncer » un serveur si ses requêtes sont explicitement interdites par le fichier robots.txt et qu'l respecte cette directive.
Juste un petit commentaire que je n'ai pas mis dans l'article : pour certains bots, on utilise IOCAINE et on les fait se perdre dans des milliers de page web de phrases sans queues ni têtes en français, avec des noms de grande marques au milieu…
un exemple : depuis une semaine que j'ai mis ça sur un serveur, on sert de manière très stable 40 requêtes par secondes à destination de ce botnet de millions d'IPs, et donc on va très probablement leur pourrir la vie :D
Ca devient compliqué : il y a un minimum de bande passante à servir pour ces bots,
à part une forme de violence contre les personnes qui codent ces bots, je ne vois pas de solution.
D'ailleurs, celles et ceux qui utilisent l'IA participent de ce problème : ils justifient l'existence de ces bots par leur usage… Il est peut-être temps de rendre cela visible …
Moi, ce qui me fait peur (et tant que "consommateur" de web, je ne suis pas admin de serveur web), c'est qu'à la longue, à mesure que les admins mettront en place des contre-offensives de plus en plus intrusives comme Anubis, ça devienne de plus en plus compliqué de trouver des flux RSS, des pages simples visibles sans JS, pour des usages légitimes d'automatisation, comme le scraping des articles pour les afficher dans wallabag, l'utilisation de navigateurs/agrégateurs en mode texte comme offpunk, etc…
🎃 Si Macron dissout il lui arrivera ce qui est arrivé à Chirac 🎃
Je pense que ça va se réguler, parce que les société d'IA ne peuvent pas se permettre d'assassinner les serveurs dont elles ont besoin pour nourrir leurs agents.
De même, lorsqu'il y a eu un boum des moteurs de recherche avec le web, il a fallu trouver des règles pour empêcher certaines indexations de contenus, ne pas mettre les serveurs à genoux ou empêcher la création de contraintes par les hébergeurs. On a créé Robots.txt que les moteurs ont peu à peu fini par respecter — sans en avoir l'obligation pourtant.
Si le parallèle est tiré par les cheveux, on peut simplement remarquer que les IA n'ont aucun intérêt à se voir refuser les accès. Une règle de bonne conduite finira par être adoptée.
# Constat d'impuissance
Posté par Voltairine . Évalué à 6 (+4/-0).
Ce n'est pas le premier hébergeur se plaignant de ce type d'attaque et arrivant à la conclusion que malgré le temps et les ressources allouées, la lutte est relativement vaine.
D'autre part je ne suis pas étonnée que les services
pièges à gogosVPN soient responsables de la création d'immenses botnets.# Même problématique pour LinuxFr org
Posté par Benoît Sibaud (site web personnel) . Évalué à 10 (+27/-0).
LinuxFr.org a les mêmes problématiques : on a pu voir des mois où le bot bourrin de ClaudeAI faisait 50% de notre trafic, on voit de nombreux bots en général, etc. On passe moins temps qu'Octopuce à lutter contre parce qu'on est bénévoles et que notre serveur tient encore largement…
Je noterais aussi un biais psychologique : c'est trop cool, tes stats s'améliorent, plein de visites (plus de requêtes, plus d'IPs différentes, plus d'IPs différentes/tranche de temps - les visites, plus de trafic réseau, etc.).
Et pourtant à y regarder plus en détails, en se limitant au plus "vérifiable" (tousse tousse), les comptes authentifiés, on voit que les pénibles en créent une proportion énorme, largement détruite avant toute utilisation, que le reste sera éliminé rapidement en cas de spam ou après 1 an d'inactivité… bref au final les vrais nouveaux comptes de vrais gens baissent (ça se voit sur les stats via les "2060 comptes utilisés sur le site au cours des trois derniers mois", comprenant les comptes récents de pénibles donc).
Donc au final on a un gâchis énorme de ressources, caché par l'abondance (gros serveur, etc.) ou le financier indolore (réseau gratuit, etc.), masqué partiellement par un manque de temps à y consacrer et la flatterie des statistiques de fréquentation.
Et là on n'a parlé que des pénibles qui crawlent/parcourent comme des bourrins. Mais ensuite il y a les pénibles qui postent des contenus de pub/désinformation/etc., les pénibles qui reprennent les vieux noms de domaines pour poster qui pourrissant le passé, ceux qui placent leurs hyperliens partout, ceux qui envoient des dizaines de spams par semaine pour te proposer du spam (pardon un contenu invité payé), pour te vendre une pseudo faille de sécu sur ton site ou un lien cassé, etc. Bref tout un vaste écosystème de pénibles dont la pénibilité assistée par IA ne fait que croitre.
Cela représente une menace pour l'open web (être un site public expose aux problèmes évoqués, donc oourquoi rester public), du contrôle du lectorat (filtrer les humains des bots nécessiteraient des preuves d'identité numérique, ou bien filtrer par l'argent en faisant payer l'inscription), un souci écologique certain (gachis généralisé), un vaste écosystème interlope (fraude, arnaque, manipulation, etc.). Et même une explosion de la bulle IA ne stopperait pas ça (des LLM locaux feraient le job, et les gros méchants n'ont pas de soucis d'argent).
Bon, soyons raisonnables, comment on corrige le monde, parce que quelques uns ont grave tort sur Internet ?
[^] # Re: Même problématique pour LinuxFr org
Posté par Voltairine . Évalué à 3 (+1/-0).
De mémoire celui-ci est respectueux des directives du fichier robots.txt. C'est quand même la première barrière à mettre en place même si cela ne résout pas le problème.
[^] # Re: Même problématique pour LinuxFr org
Posté par flan (site web personnel) . Évalué à 3 (+1/-0).
Peut-être, mais il défonce quand même les serveurs qui sont un peu lents vu qu'il n'attend pas spécialement entre deux pages.
[^] # Re: Même problématique pour LinuxFr org
Posté par Voltairine . Évalué à 3 (+1/-0).
Je ne vois pas comment ClaudeAI peut « défoncer » un serveur si ses requêtes sont explicitement interdites par le fichier robots.txt et qu'l respecte cette directive.
[^] # Re: Même problématique pour LinuxFr org
Posté par flan (site web personnel) . Évalué à 3 (+2/-1).
Le problème n'est pas le crawling en soi, c'est de le faire trop vite.
[^] # Re: Même problématique pour LinuxFr org
Posté par Voltairine . Évalué à -2 (+0/-4).
Quand on interdit à CLaude AI d'indexer les pages il na va pas faire de « crawling » de toute façon.
À ce demander si tu joues les imbéciles…
[^] # Re: Même problématique pour LinuxFr org
Posté par barmic 🦦 . Évalué à 3 (+1/-0).
C’est en tout cas ce qu’ils annoncent : Anthropic explore-t-il les données du web, et comment les propriétaires de sites peuvent-ils bloquer le robot d'exploration ?
Ça reste de l’op-tout
https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
# verifier via un truc d'informatique tic tic
Posté par orfenor . Évalué à 5 (+4/-1).
le monde je sais pas, mais pour les inscriptions sur lunyxfr on pourrait instaurer une vérification via Gemini, Gopher, etc.
[^] # Re: verifier via un truc d'informatique tic tic
Posté par steph1978 . Évalué à 2 (+0/-0).
C'est du second degré, n'est-ce pas ?
# Utilisez Iocaine \o/
Posté par Benjamin (site web personnel) . Évalué à 10 (+13/-0).
Salut linuxfr (ça fait un bail!)
Juste un petit commentaire que je n'ai pas mis dans l'article : pour certains bots, on utilise IOCAINE et on les fait se perdre dans des milliers de page web de phrases sans queues ni têtes en français, avec des noms de grande marques au milieu…
un exemple : depuis une semaine que j'ai mis ça sur un serveur, on sert de manière très stable 40 requêtes par secondes à destination de ce botnet de millions d'IPs, et donc on va très probablement leur pourrir la vie :D
[^] # Re: Utilisez Iocaine \o/
Posté par Tonton Th (site web personnel, Mastodon) . Évalué à 3 (+1/-0).
Et ceux qui hébergent leur site sur un ADSL de campagne, ils font quoi ?
[^] # Re: Utilisez Iocaine \o/
Posté par Benjamin (site web personnel) . Évalué à 2 (+1/-0).
Salut,
Ca devient compliqué : il y a un minimum de bande passante à servir pour ces bots,
à part une forme de violence contre les personnes qui codent ces bots, je ne vois pas de solution.
D'ailleurs, celles et ceux qui utilisent l'IA participent de ce problème : ils justifient l'existence de ces bots par leur usage… Il est peut-être temps de rendre cela visible …
# RSS, navigateurs TUI, scrapeurs légitimes
Posté par François Chaix (Mastodon) . Évalué à 10 (+9/-0).
Moi, ce qui me fait peur (et tant que "consommateur" de web, je ne suis pas admin de serveur web), c'est qu'à la longue, à mesure que les admins mettront en place des contre-offensives de plus en plus intrusives comme Anubis, ça devienne de plus en plus compliqué de trouver des flux RSS, des pages simples visibles sans JS, pour des usages légitimes d'automatisation, comme le scraping des articles pour les afficher dans wallabag, l'utilisation de navigateurs/agrégateurs en mode texte comme offpunk, etc…
🎃 Si Macron dissout il lui arrivera ce qui est arrivé à Chirac 🎃
[^] # Re: RSS, navigateurs TUI, scrapeurs légitimes
Posté par orfenor . Évalué à 4 (+2/-0).
Je pense que ça va se réguler, parce que les société d'IA ne peuvent pas se permettre d'assassinner les serveurs dont elles ont besoin pour nourrir leurs agents.
De même, lorsqu'il y a eu un boum des moteurs de recherche avec le web, il a fallu trouver des règles pour empêcher certaines indexations de contenus, ne pas mettre les serveurs à genoux ou empêcher la création de contraintes par les hébergeurs. On a créé Robots.txt que les moteurs ont peu à peu fini par respecter — sans en avoir l'obligation pourtant.
Si le parallèle est tiré par les cheveux, on peut simplement remarquer que les IA n'ont aucun intérêt à se voir refuser les accès. Une règle de bonne conduite finira par être adoptée.
Envoyer un commentaire
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.