Journal Satanées bots

Posté par Benjamin Poulain (site web personnel) le 27 novembre 2007 à 20:49.

Étiquettes : aucune

nov.

2007

J'ai trois trois site ([http://www.linuxcertif.com],[http://iverb.ikipou.com],[http://www.magellan.fpms.ac.be]) hébergé sur le même serveur. Des trois, Linux Certif est le plus populaire, et mon problème est que sa charge venant de bots vient handicaper les deux autres sites.

Cela est vraiment devenu un problème ce week-end car quelqu'un a commencé à télécharger agressivement toute les pages de Linux Certif à l'aide de HTTrack.

Pour résoudre le problème, j'ai envisagé d'utiliser des limites sur le nombre de paquets par IP par seconde. Néanmoins, cela ralentirait tout le monde alors que le problème ne vient clairement pas de la bande passante.

Je suis à la recherche d'une solution qui me permettrait de limiter les visites abusive (comprendre, ralentir les bots un peu trop agressifs), sans pour autant ralentir le trafic normal.

Je pourrais évidemment bloquer les clients en fonction de l'en tête User-Agent, mais il existe peut être une solution plus intelligente basé sur le comportement du client? De plus je ne cherche pas à bloquer complètement les bots mais à les ralentir.

Bref, tout vos conseils et retour d'expérience pour ralentir les bots trop agressif sont les bienvenus.

# Limiter le nombre de requête par IP

Posté par tipmeabout le 27 novembre 2007 à 21:54. Évalué à 3.

Pourquoi ne pas limiter le nombre de requête par minutes par IP ?
Ça pourrait être une piste.
Pour la réalisation: un firewall entrant qui loggue tout les paquets TCP syn. Un script qui parcours le fichier log, et qui calcule le nombre de fois qu'une IP est présente (en bash, uniq peut aider, ainsi que wc). Si ce nombre est trop élevé, tu injectes une règle iptable qui limite le nombre d'accès pour cette/ces IPs. Au bout de x minutes, tu enlèves la limitation.

Voilà, si ça peut t'aider
- [^] # Re: Limiter le nombre de requête par IP
  
  Posté par Sytoka Modon (site web personnel) le 27 novembre 2007 à 22:25. Évalué à 4.
  
  Il suffit d'estimer effectivement ce qu'un homme est capable de faire à la minute, par exemple max 20 cliques et de mettre cela dans iptables au niveau du parametre limit. J'ai ce genre de règle en permanence et aucune injection de règle à chaud et cela marche très bien.
  
  Je met surtout cela sur un serveur ssh. Je n'autorise par exemple que 2 ou 3 nouvelles connections par minutes et du coup, je n'ai quasiment plus d'attaque sur ce port...
  - [^] # Re: Limiter le nombre de requête par IP
    
    Posté par Benjamin Poulain (site web personnel) le 28 novembre 2007 à 07:48. Évalué à 1.
    
    J'ai tenté cette approche mais cela ralenti trop le débit pour les requêtes statiques (images, son, etc).
    
    Hors ce n'est clairement pas la bande passante qui est trop petite mais la puissance du serveur.
- [^] # Re: Limiter le nombre de requête par IP
  
  Posté par Frederic Bourgeois (site web personnel) le 28 novembre 2007 à 09:28. Évalué à 5.
  
  Attention la grande limite de ce système ce sont les grandes structures (entreprises, écoles, etc ...), en effet ton site peut devenir rapidement inaccessible pour des dizaines voire des milliers de personnes derrière une NAT (c'est du vécu)
# if (bot) then sleep(10); avant de continuer

Posté par Gniarf le 27 novembre 2007 à 22:28. Évalué à 2.

puisque plusieurs bots dont celui de Google ne respectent pas le Crawl-Delay

en PHP il existe une fonction idéale pour ce cas : auto_prepend_file, qu'on peut limiter à un seul virtual host si nécessaire (avec php_value auto_prepend_file /tonchemin/calmos_les_bots.php dans le virtual host ou le .htaccess du site)

mais visiblement ton site est en Python.
- [^] # Re: if (bot) then sleep(10); avant de continuer
  
  Posté par Benjamin Poulain (site web personnel) le 28 novembre 2007 à 07:55. Évalué à 1.
  
  Effectivement c'est du Python, avec Zope-Plone et Django.
# Google?search=apache+limit+ip

Posté par Prae le 28 novembre 2007 à 04:06. Évalué à 2.

Google ... Ami ...
http://www.binrev.com/forums/index.php?s=b1685c5d45dad5efae7(...)
- [^] # Re: Google?search=apache+limit+ip
  
  Posté par Benjamin Poulain (site web personnel) le 28 novembre 2007 à 09:45. Évalué à 1.
  
  J'ai envisagés les limites par IP mais j'imagine qu'il existe des heuristiques plus intéressante (peut être le nombre de burst par seconde par connexion?).
  
  La remarque de Frederic Bourgeois est aussi très pertinente pour les limites par IP.
# Belnet

Posté par epot (site web personnel) le 28 novembre 2007 à 07:12. Évalué à 1.

D'un autre côté, tes trois sites web sont hébergés dans ton université (gratuitement je suppose). Je doute que le service informatique de l'Université de Mons-Hainaut ait l'accès aux sites web hébergés comme priorité absolue (ni que Belnet, fournisseur de la connection filtre ce qui passe).

Ma suggestion serait de passer chez un vrai hébergeur (pas nécessairement commercial : il y en a des bons en associatif aussi).
- [^] # Re: Belnet n'est pas un problème
  
  Posté par Benjamin Poulain (site web personnel) le 28 novembre 2007 à 07:53. Évalué à 3.
  
  Les sites sont hébergés à la Faculté Polytechnique de Mons, mais pas sur les serveurs de la faculté. La bande passante est aussi gérée par nos soins donc le problème ne vient pas non plus de là.
# Bad Behavior

Posté par ploum (site web personnel, Mastodon) le 28 novembre 2007 à 10:16. Évalué à 3.

Essaye déjà de voir si tu ne peux pas utiliser Bad Behavior :
http://www.bad-behavior.ioerror.us/

C'est un script qui en fonction de l'User-Agent et des actions d'un visiteur décide si oui ou non il peut la laisser passer. Il renvoie un simple 403 ou 412 si l'utilisateur est "à bloquer".

Il existe des plugins pour la majorité des CMS mais tu peux adapter à ta façon.

Perso, il me bloque des dizaines et des dizaines de bots "aspirateurs" tous les jours. Je n'ai jamais eu de plaintes de visiteurs normaux bloqués même si il est possible que ça puisse arriver.

Dans ton cas, c'est la première chose que j'essaierai.
Mes livres CC By-SA : https://ploum.net/livres.html
- [^] # Re: Bad Behavior
  
  Posté par Nicolas Schoonbroodt le 28 novembre 2007 à 11:28. Évalué à 3.
  
  Les visiteurs normaux qui sont bloqués ne peuvent pas se plaindre, car ils ne trouvent pas comment te contacter ;-)
  - [^] # Re: Bad Behavior
    
    Posté par ploum (site web personnel, Mastodon) le 28 novembre 2007 à 14:21. Évalué à 3.
    
    Non parce que la page d'erreur contient une adresse de contact (du moins en théorie, moi je ne l'ai jamais vue, j'ai jamais réussi à me faire bloquer)
    Mes livres CC By-SA : https://ploum.net/livres.html
# Alternative : partager

Posté par Julien Damon (site web personnel) le 28 novembre 2007 à 11:51. Évalué à 2.

Une solution alternative est de partager le contenu de linux certif (avec licence, etc).

Par exemple faire un export dans une archive, ou mieux générer un fichier pdf ou autre de documentation, que l'on met en ftp et que les visiteurs peuvent télécharger.
- [^] # Re: Alternative : partager
  
  Posté par Benjamin Poulain (site web personnel) le 28 novembre 2007 à 12:29. Évalué à 2.
  
  Je ne demande pas mieux mais c'est gênant pour tenir l'archive à jour avec les mises à jour du site.
  
  En fait ce genre de fonctionnalité est sur la TODO list mais la priorité actuelle est de faire de nouveaux articles.
# User-Agent

Posté par Zenitram (site web personnel) le 29 novembre 2007 à 01:32. Évalué à 3.

Inutile de chercher de ce coté, 99% des aspirateurs web se faisant passer pour IE...
- [^] # Re: User-Agent
  
  Posté par Moonz le 29 novembre 2007 à 14:11. Évalué à 8.
  
  Suffit de bloquer IE...

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.