Journal lutte anti spam active

Posté par  (site web personnel) .
Étiquettes : aucune
0
30
mai
2003
http://franck59d.homelinux.net/spam_die

le but est de saturer les crawler de mail ...

c'est une fausse page qui génère plein d'email factice ...

c'est un bète module apache ...

si plus de monde pouvait l'installer ...
  • # Re: lutte anti spam active

    Posté par  (site web personnel) . Évalué à 1.

    Oui mais bon, il ne suffit pas de tester si le nom de domaine existe après (je parle pour les spammeurs) ?
    • [^] # Re: lutte anti spam active

      Posté par  (site web personnel) . Évalué à 2.

      ça les oblige à faire plus de traitement oui,

      ça les oblige à avoir plus de bande passante oui,

      ça les oblige perdre plus de temps pour avoir une liste d'email valide oui ....

      ça rend le "crawling" moins rentable oui ....
      • [^] # Re: lutte anti spam active

        Posté par  . Évalué à 3.

        ça les oblige à tester si la page contient /Powered by .*mod_spam_die.*/ pour se douter que le contenu est aléatoire.

        Je doute que cette démarche soit très efficace. Plutôt que d'obliger les crawlers à faire plus de traitement, augmenter la bande passante etc...

        Par contre, je vois que mon server a plus de traitement, utilise plus de bande passante (appel récursif au module). Tout cela jusqu'au jour ou les mail-crawlers implémenteront le contrôle pour vérifier que la page retournée n'est pas "Powered by .*mod_spam_die.*/ " (1 ligne en Perl !)

        Personnellement, j'utilise une méthode différente. Je n'affiche jamais clairement mes adresses e-mail. Je les affiche avec un (à) à la place du "@", je vais bientot les afficher avec un (point) à la place du "." et en ce qui concerne le mailto:, je n'en mets plus, mais je fais appel à un script ou mon email est passé en paramètre sous forme modifiée ("nom domaine.tld" au lieu de "nom@domaine.tld").

        Ces astuces peuvent facilement être contournées par les crawlers, mais la difficulté passe par la diversité. Si j'utilise (à) et (point) pour afficher mes e-mails, ils sont plus difficiles à identifié que par la présence d'un "@". De plus, d'autres personnes utiliseraient un (chez), un (at), un (arobase), [à], $à$, ~a~ pour le @ ou (dot) (punkt) [point] ... pour le "." . Donc le crawler devrait intégrer beaucoup plus de règles (autant de règles que de "syntaxe" différente).

        Pour les paramètres en scripts, de nouveau le crawler doit deviner que "nom%20domaine.tld" est une adresse e-mail. Ensuite, une fois l'adresse repérée, il doit remplacer le %20 en @.

        Voici un exemple de mon utilisation:
        http://www.gauteron.info/(...)

        Les modifications suivantes vont intervenir:
        - le "." dans l'adresse e-mail visible dans le navigateur va devenir (point)
        - le script d'envoi de mail va être renommé autrement que "sendmail.php", car trop facile à deviné son but
        - le paramètre passé à "sendmail.php" va être crypté (faiblement pour ne pas chargé le serveur, mais dans le but que le crawler passe dessus sans deviner qu'il s'agit d'un e-mail).

        Ma méthode me parait plus efficace que celle proposée par mod_spam_die. Mais cela n'est que mon avis personnel.
        • [^] # Re: lutte anti spam active

          Posté par  (site web personnel) . Évalué à 2.

          > ça les oblige à tester si la page contient /Powered by .*mod_spam_die.*/
          > pour se douter que le contenu est aléatoire.

          Techniquement ca suffirait, en réalité la diversité des possibilités anti-spam rend la démarche d'exclusion trop complexe.

          > Ces astuces peuvent facilement être contournées par les crawlers, mais la
          > difficulté passe par la diversité.

          voilà mon point, c'est vrai aussi pour le script dont on parle.



          Maintenant ... envoyer un mail c'est presque ridicule en ressources, ils peuvent se permettre de tout récolter et envoyer le mail sans vérification, quitte à rayer ceux qui bouncent. Pire, souvent ca passe par des serveurs mails mal configurés, donc ca ne sont meme pas eux qui font la vérification du domaine et se tapent les erreurs.
          Rajouter des emails bidons n'amène pas grand chose et ne les gène pas vraiment.

          Par contre il y a deux méthodes :

          - l'offuscation pour rendre l'email invisible. D'après pas mal de tests de tout le monde, les robots sont tres basiques et ne récupèrent que les noms de domaine des liens vers pages Web (auquel cas ils envoient à intranet@domain ou sales@domaine et quelques autres) et les chaines de caractères user@domain, que ce soit dans les liens ou pas.
          Je ne peux pas affirmer que ca durera mais pour l'instant il semble meme que faire un lien mailto en encodant le mail avec des %xx à la place des lettres (codage d'url) rende invisible le mail aux robots (j'ai vu plusieurs études qui montraient ce fait) : ils ne décodent rien, ne comprennent pas la structure HTML, bref, simple moteur de recherche de user@domain. Ca permet de boycotter les robots sans pénaliser l'utilisateur (qui lui a un navigateur qui lit un peu mieux le HTML et pourra utiliser le lien).

          - le pot de miel, c'est une démarche que j'aime bien. Poser en commentaire un lien mail (avec les balises HTML). Les robots collecteurs passent dessus, mailent, et se font blacklister.
          Voir (entre autres) http://piegeacons.apinc.org/(...)
          • [^] # Re: lutte anti spam active

            Posté par  . Évalué à 1.

            - le pot de miel, c'est une démarche que j'aime bien. Poser en commentaire un lien mail (avec les balises HTML). Les robots collecteurs passent dessus, mailent, et se font blacklister.
            Le principe est sympathique, mais j'ai des doutes sur son efficacité :
            apparement le filtrage se fait sur le champ From: du mail.
            Qu'est-ce qui m'empêche d'y forger un nom aléatoire à chaque fois
            si je veux devenir spammeur.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.