Lien Anubis - Le logiciel open source préserve Internet des robots IA

Posté par Maderios le 08 juillet 2025 à 10:39.

Étiquettes :

juil.

2025

https://news.slashdot.org/story/25/07/07/2146228/the-open-source-software-saving-the-internet-from-ai-bot-scrapers

# petit resumé

Posté par ChocolatineFlying le 08 juillet 2025 à 15:23. Évalué à 5. Dernière modification le 08 juillet 2025 à 15:23.

ça force le navigateur à faire un calcul mathématique, ce qui est un peu anodin pour chaque utilisateur mais pour des robots ca devient très consommateur de ressource

la page du projet possède ce captcha mathématiques lors de la connexion, attention ça va assez vite lors de la première connexion, soyez attentif !

https://anubis.techaro.lol/

c'est une pas trop mal solution amha
- [^] # Re: petit resumé
  
  Posté par Maclag le 08 juillet 2025 à 15:33. Évalué à 6.
  
  Vraie question: on gueule sur les ressources absurdes consommées par les IA, mais leurs défenseurs expliqueront qu'il faut ramener ça à une conso par utilisateur (donc s'il y a 1Mds de… euh… gens qui s'en servent, l'apprentissage aura été ventilé).
  
  On dit que le calcul est anodin pour un utilisateur, mais de nombreux sites se mettent à faire ça, ça sera quoi l'impact global en termes de ressources?
  D'autant que les robots ont sans doute moins tendance que les humains à revenir N fois sur le même contenu.
  - [^] # Re: petit resumé
    
    Posté par ChocolatineFlying le 08 juillet 2025 à 15:52. Évalué à 0.
    
    la il n'y auront pas accès du tout, ca évite que ton petit site perso avec un abo de 1gb/mois se fasse IA-fériser en 3 jours avec tout ses IA qui se balade
  - [^] # Re: petit resumé
    
    Posté par nud le 09 juillet 2025 à 09:44. Évalué à 6.
    
    De ce que je comprends les diverses IA n'ont pas les mêmes pratiques que les crawlers d'antan et ont tendance à matraquer les sites et provoquer un déni de service.
    
    Par exemple Gnome a déployé Anubis sur son Gitlab suite à plusieurs outages liés à du scraping massif, et j'ai vu un certain nombre de personnes se plaindre de scrapers qui téléchargent certaines pages de façon très répétées (plusieurs gigaoctets) en ignorant totalement le robots.txt (ça coûte cher sur les plateformes qui facturent le trafic); il y a des listes de user-agents et de ranges IP qui tournent pour les bloquer au niveau du serveur web, etc.
    
    Bref c'est encore une externalité négative de l'«IA». La conséquence pratique c'est aussi que tous ces sites deviennent vraisemblablement inutilisables hors d'un navigateur (curl, scripting, etc)
    
    Voir aussi: https://arstechnica.com/ai/2025/03/devs-say-ai-crawlers-dominate-traffic-forcing-blocks-on-entire-countries/
    
    Comme solutions alternatives j'ai aussi vu un labyrinthe pour IA, un zip bomb, …
    - [^] # Re: petit resumé
      
      Posté par orfenor le 09 juillet 2025 à 09:57. Évalué à 3.
      
      il y a des listes de user-agents et de ranges IP qui tournent pour les bloquer au niveau du serveur web, etc.
      
      Oui le projet AI robots.txt propose des bouts de config à inclure dans Apache, Nginx, Caddy, etc.
    - [^] # Re: petit resumé
      
      Posté par Psychofox (Mastodon) le 09 juillet 2025 à 15:21. Évalué à 4. Dernière modification le 09 juillet 2025 à 15:22.
      
      Pour être plus précis ce ne sont pas les IA elles-mêmes qui DDoS les sites, mais les crawlers qui servent à générer les modèles.
      
      Les chatbots qui vont chercher l'info à la demande pour l'enrichir sont encore une minorité.
  - [^] # Re: petit resumé
    
    Posté par Renault (site web personnel) le 09 juillet 2025 à 09:53. Évalué à 7.
    Vraie question: on gueule sur les ressources absurdes consommées par les IA, mais leurs défenseurs expliqueront qu'il faut ramener ça à une conso par utilisateur (donc s'il y a 1Mds de… euh… gens qui s'en servent, l'apprentissage aura été ventilé).
    
    Il n'y a pas que l'apprentissage qui consomme. C'est même pire, à mesure que les utilisateurs s'en servent, l'impact principal dominant sera son utilisation. C'est peut être même déjà le cas depuis un moment.
    
    L'IA pose plusieurs soucis à cet égard :
    - Chaque requête est individuelle et "unique", utiliser des technique de cache est donc délicat ;
    - Chaque requête monopolise des ressources matérielles qui sont plus difficiles à partager en même temps. Un serveur web classique peut facilement gérer des centaines / milliers d'utilisateurs en parallèle sans soucis. Pour une IA cela semble difficile car le GPU est très sollicité et a besoin d'exécuter les instructions d'un utilisateur dans l'ordre ;
    - Beaucoup de requêtes demandent un accès à Internet en direct et ne peuvent se reposer sur le cache comme pour un moteur de recherche classique. Style "tu peux me résumer cette page XXXXX" ou trouver des produits / infos à propos de quelque chose. Cela implique aux éditeurs d'avoir bien plus de robots qui naviguent sur Internet qu'un moteur de recherche plus classique qui a moins ce problème et qui réserve une haute fréquence pour certains sites le justifiant type site d'actu, Wikipédia, etc.
- [^] # Re: petit resumé
  
  Posté par gled le 09 juillet 2025 à 12:54. Évalué à 2.
  
  Au moins ça fonctionne sans javascript, c'est déjà ça.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.