Journal Spam de referrer

Posté par  (site web personnel) .
Étiquettes : aucune
0
23
juil.
2005
Bonjour

Si vous êtes utilisateur de webalizer ( ou peut être d'autres logiciels du même type ) vous avez sans doute deja eu vers votre serveur un trés grand nombres de requettes à la suite avec un faux referrer.

D'aprés ce que j'ai lu, ses abus ce fonts a l'aide de virus ou spywares windows.

Ces sites ( en géneral pornographique ) utilisent cette méthode pour ameiliorer leur placement dans les moteurs de recherches. Voila la méthode que j'utilise sans pour autant masquer les referrers ou même les stats.

Déja dans mon robots.txt, je demande aux robots de moteurs de recherche de ne pas regarder mes stats.


User-agent: *
Disallow: /webalizer


Ensuite j'ai fait un fichier pas trés propre que je lance via une crontab pour faire mes stats.

#!/bin/sh

cp /var/log/thttpd.log /tmp/thttpd.log
echo "Nettoyage du log.."
cat /tmp/thttpd.log \
| grep -v biomsoft \
| grep -v http://maxi(...) \
| grep -v porn \
| grep -v sex \
| grep -v adult \
| grep -v teen \
| grep -v penis \
| grep -v nude \
| grep -v incest \
| grep -v canabis \
| grep -v zoo.html \
| grep -v mature \
| grep -v gay \
| grep -v insurance \
| grep -v pantyhose \
| grep -v fuck \
| grep -v enlargement \
| grep -v lesbian \
| grep -v pills \
| grep -v medicine \
| grep -v hardcore \
| grep -v xxx \
| grep -v xxl \
| grep -v hilton \
| grep -v naked \
| grep -v drug \
| grep -v pocker \
| grep -v casino \
| grep -v interacial \
| grep -v pussy \
| grep -v bestialy > /var/log/thttpd.log

cd /home/www/webalizer
webalizer -u < /var/log/thttpd.log

rm /tmp/thttpd.log


C'est une méthode parmis d'autres, c'est n'est probablement pas la meilleure. Il me semble que apache peut lui même bloquer ce genre de trucs si il est bien configurer.

Il y a un risque d'un laisser passer certains, que certaines bon referrers soient effacés
  • # Grep

    Posté par  . Évalué à 5.

    Juste pour te préciser que tu peux améliorer l'utilisation de grep en faisant : grep -v -E "naked|drug|pocker|......"
    • [^] # Re: Grep

      Posté par  (site web personnel) . Évalué à 1.

      Ok, merci du conseil. Mon serveur utilise busybox. Demain je regarde si ca fonctionne aussi.
      • [^] # Re: Grep

        Posté par  (site web personnel) . Évalué à 3.

        Il y a aussi

        grep -v -e toto -e titi ...

        et tu peux limiter les faux positifs en faisant

        grep -v '\<sex\>'

        (c'est des délimiteurs de mots).
        • [^] # Re: Grep

          Posté par  (site web personnel) . Évalué à 1.

          J'ai testé, mais c'est dommage. La version busybox de grep ne semble pas supporter les plusieurs elements en même temps.
  • # question à 10 points

    Posté par  . Évalué à 8.

    quel est l'interêt pour la plupart des sites de montrer ainsi au reste du monde leurs statistiques webalyser, awstat, cacti ou autre ?


    sans même parler des trous de sécurité qu'on trouve régulièrement dans ces petits monstres
    • [^] # Re: question à 10 points

      Posté par  (site web personnel) . Évalué à 4.

      J'ai déjà entendu parler des failles de awstats. Mais comme webalizer ne fonctionne pas en tent que scripts cgi. Je me demande comment quelqu'un pourait l'utiliser pour pirater ma machine.

      Je pense que ceului qui voudrait faire ça passerais peut être par les services type telnet/ssh ftp, http ou autres.

      Il reste de problème du spam de referrer, mais avec ce filtre je devrais plus en avoir beaucoup.

      Mais statistiques ne sonts pas privés, Je trouve interesant de regarder les stats d'un site. http://linuxfr.org/stats/(...)
  • # Un peu de désordre?

    Posté par  (site web personnel) . Évalué à 2.

    Dis-nous, l'ordre de tes mots-clés est aléatoire ou non? Parce que si l'on met 'Paris' juste avant 'Hilton' on se retrouve avec une femme nue et droguée jouant au poker dans un casino,...

    je file chez l'avocat------->[]
    • [^] # Re: Un peu de désordre?

      Posté par  (site web personnel) . Évalué à 1.

      Les mots ne sont pas chosis au hazard. J'ai fait une recherche de stats de webalizer sur google, et je voyait quelles genre d'adresses ont ces sites.

      L'ordre des mots et l'ordre dans lequel je les rentrés, ca n'a aucune influance sur le fonctionement.
  • # htaccess

    Posté par  (site web personnel) . Évalué à 3.

    Par exemple pour wikini c'est ce qui peut être mis en oeuvre :
    (voir après le listing des modifs)
    http://www.wikini.net/wakka.php?wiki=TentativesDeVandalismeSurWikiN(...)

    si il y avait d'autres possibilités regardées ici : http://linuxfr.org/~ccomb/15601.html(...)

    et la synthèse (qui a la plupart des éléments) : http://www.wikini.net/wakka.php?wiki=FiltrerLeSpamDesReferrers(...)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.