Lien Le boss de fin de niveau : des proxies, des proxies, partout

Posté par Tonton Th (site web personnel, Mastodon) le 04 octobre 2025 à 19:52.

Étiquettes :

oct.

2025

https://www.octopuce.fr/les-bots-dia-nous-pourrissent-la-vie-on-leur-rend-bien/

# Constat d'impuissance

Posté par Voltairine le 05 octobre 2025 à 09:37. Évalué à 6.

Ce n'est pas le premier hébergeur se plaignant de ce type d'attaque et arrivant à la conclusion que malgré le temps et les ressources allouées, la lutte est relativement vaine.

D'autre part je ne suis pas étonnée que les services ~~pièges à gogos~~ VPN soient responsables de la création d'immenses botnets.
# Même problématique pour LinuxFr org

Posté par Benoît Sibaud (site web personnel) le 05 octobre 2025 à 10:37. Évalué à 10.

LinuxFr.org a les mêmes problématiques : on a pu voir des mois où le bot bourrin de ClaudeAI faisait 50% de notre trafic, on voit de nombreux bots en général, etc. On passe moins temps qu'Octopuce à lutter contre parce qu'on est bénévoles et que notre serveur tient encore largement…

Je noterais aussi un biais psychologique : c'est trop cool, tes stats s'améliorent, plein de visites (plus de requêtes, plus d'IPs différentes, plus d'IPs différentes/tranche de temps - les visites, plus de trafic réseau, etc.).

Et pourtant à y regarder plus en détails, en se limitant au plus "vérifiable" (tousse tousse), les comptes authentifiés, on voit que les pénibles en créent une proportion énorme, largement détruite avant toute utilisation, que le reste sera éliminé rapidement en cas de spam ou après 1 an d'inactivité… bref au final les vrais nouveaux comptes de vrais gens baissent (ça se voit sur les stats via les "2060 comptes utilisés sur le site au cours des trois derniers mois", comprenant les comptes récents de pénibles donc).

Donc au final on a un gâchis énorme de ressources, caché par l'abondance (gros serveur, etc.) ou le financier indolore (réseau gratuit, etc.), masqué partiellement par un manque de temps à y consacrer et la flatterie des statistiques de fréquentation.

Et là on n'a parlé que des pénibles qui crawlent/parcourent comme des bourrins. Mais ensuite il y a les pénibles qui postent des contenus de pub/désinformation/etc., les pénibles qui reprennent les vieux noms de domaines pour poster qui pourrissant le passé, ceux qui placent leurs hyperliens partout, ceux qui envoient des dizaines de spams par semaine pour te proposer du spam (pardon un contenu invité payé), pour te vendre une pseudo faille de sécu sur ton site ou un lien cassé, etc. Bref tout un vaste écosystème de pénibles dont la pénibilité assistée par IA ne fait que croitre.

Cela représente une menace pour l'open web (être un site public expose aux problèmes évoqués, donc oourquoi rester public), du contrôle du lectorat (filtrer les humains des bots nécessiteraient des preuves d'identité numérique, ou bien filtrer par l'argent en faisant payer l'inscription), un souci écologique certain (gachis généralisé), un vaste écosystème interlope (fraude, arnaque, manipulation, etc.). Et même une explosion de la bulle IA ne stopperait pas ça (des LLM locaux feraient le job, et les gros méchants n'ont pas de soucis d'argent).

Bon, soyons raisonnables, comment on corrige le monde, parce que quelques uns ont grave tort sur Internet ?
- [^] # Re: Même problématique pour LinuxFr org
  
  Posté par Voltairine le 05 octobre 2025 à 13:27. Évalué à 3.
  
  on a pu voir des mois où le bot bourrin de ClaudeAI faisait 50% de notre trafic
  
  De mémoire celui-ci est respectueux des directives du fichier robots.txt. C'est quand même la première barrière à mettre en place même si cela ne résout pas le problème.
  - [^] # Re: Même problématique pour LinuxFr org
    
    Posté par flan (site web personnel) le 05 octobre 2025 à 19:08. Évalué à 3.
    
    Peut-être, mais il défonce quand même les serveurs qui sont un peu lents vu qu'il n'attend pas spécialement entre deux pages.
    - [^] # Re: Même problématique pour LinuxFr org
      
      Posté par Voltairine le 06 octobre 2025 à 08:09. Évalué à 3.
      
      Je ne vois pas comment ClaudeAI peut « défoncer » un serveur si ses requêtes sont explicitement interdites par le fichier robots.txt et qu'l respecte cette directive.
      - [^] # Re: Même problématique pour LinuxFr org
        
        Posté par flan (site web personnel) le 06 octobre 2025 à 21:55. Évalué à 3.
        
        Le problème n'est pas le crawling en soi, c'est de le faire trop vite.
        
        [^] # Re: Même problématique pour LinuxFr org
        
        Posté par Voltairine le 07 octobre 2025 à 07:38. Évalué à -2.
        
        Quand on interdit à CLaude AI d'indexer les pages il na va pas faire de « crawling » de toute façon.
        À ce demander si tu joues les imbéciles…
  - [^] # Re: Même problématique pour LinuxFr org
    
    Posté par barmic 🦦 le 06 octobre 2025 à 09:13. Évalué à 3.
    
    C’est en tout cas ce qu’ils annoncent : Anthropic explore-t-il les données du web, et comment les propriétaires de sites peuvent-ils bloquer le robot d'exploration ?
    
    Ça reste de l’op-tout
    
    https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
# verifier via un truc d'informatique tic tic

Posté par orfenor le 05 octobre 2025 à 11:07. Évalué à 5.

Bon, soyons raisonnables, comment on corrige le monde, parce que quelques uns ont grave tort sur Internet ?

le monde je sais pas, mais pour les inscriptions sur lunyxfr on pourrait instaurer une vérification via Gemini, Gopher, etc.
- [^] # Re: verifier via un truc d'informatique tic tic
  
  Posté par steph1978 le 07 octobre 2025 à 14:18. Évalué à 2.
  
  C'est du second degré, n'est-ce pas ?
# Utilisez Iocaine \o/

Posté par Benjamin (site web personnel) le 06 octobre 2025 à 09:09. Évalué à 10.

Salut linuxfr (ça fait un bail!)

Juste un petit commentaire que je n'ai pas mis dans l'article : pour certains bots, on utilise IOCAINE et on les fait se perdre dans des milliers de page web de phrases sans queues ni têtes en français, avec des noms de grande marques au milieu…

un exemple : depuis une semaine que j'ai mis ça sur un serveur, on sert de manière très stable 40 requêtes par secondes à destination de ce botnet de millions d'IPs, et donc on va très probablement leur pourrir la vie :D
- [^] # Re: Utilisez Iocaine \o/
  
  Posté par Tonton Th (site web personnel, Mastodon) le 06 octobre 2025 à 23:19. Évalué à 3.
  
  on sert de manière très stable 40 requêtes par secondes à destination de ce botnet
  
  Et ceux qui hébergent leur site sur un ADSL de campagne, ils font quoi ?
  - [^] # Re: Utilisez Iocaine \o/
    
    Posté par Benjamin (site web personnel) le 07 octobre 2025 à 11:57. Évalué à 2.
    
    Salut,
    
    Ca devient compliqué : il y a un minimum de bande passante à servir pour ces bots,
    
    à part une forme de violence contre les personnes qui codent ces bots, je ne vois pas de solution.
    
    D'ailleurs, celles et ceux qui utilisent l'IA participent de ce problème : ils justifient l'existence de ces bots par leur usage… Il est peut-être temps de rendre cela visible …
# RSS, navigateurs TUI, scrapeurs légitimes

Posté par François Chaix (Mastodon) le 06 octobre 2025 à 14:44. Évalué à 10.

Moi, ce qui me fait peur (et tant que "consommateur" de web, je ne suis pas admin de serveur web), c'est qu'à la longue, à mesure que les admins mettront en place des contre-offensives de plus en plus intrusives comme Anubis, ça devienne de plus en plus compliqué de trouver des flux RSS, des pages simples visibles sans JS, pour des usages légitimes d'automatisation, comme le scraping des articles pour les afficher dans wallabag, l'utilisation de navigateurs/agrégateurs en mode texte comme offpunk, etc…
- [^] # Re: RSS, navigateurs TUI, scrapeurs légitimes
  
  Posté par orfenor le 06 octobre 2025 à 22:04. Évalué à 4.
  
  Je pense que ça va se réguler, parce que les société d'IA ne peuvent pas se permettre d'assassinner les serveurs dont elles ont besoin pour nourrir leurs agents.
  De même, lorsqu'il y a eu un boum des moteurs de recherche avec le web, il a fallu trouver des règles pour empêcher certaines indexations de contenus, ne pas mettre les serveurs à genoux ou empêcher la création de contraintes par les hébergeurs. On a créé Robots.txt que les moteurs ont peu à peu fini par respecter — sans en avoir l'obligation pourtant.
  Si le parallèle est tiré par les cheveux, on peut simplement remarquer que les IA n'ont aucun intérêt à se voir refuser les accès. Une règle de bonne conduite finira par être adoptée.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.