Journal : Antispam pour blog et forum

Posté par Victor STINNER (page perso, ) le 22 avril 2008
0
Las du spam sur mon blog et sur le forum de ma société, j'ai écrit un antispam. Il utilise diverses règles générant une note globale pour le message : analyse des URLs, de mots clés, de l'adresse de courriel, de la longueur du message, etc. Pour commencer, une note négative est attribuée (ex: -5). Ensuite, chaque règle rajoute ou soustrait des points à la note globale.

Exemple de spam :
Par : swingers ads
Site Web : http://sexy.ads6x.com

Adult personal ads from swingers and swappers, couples, singles, bi,
http://sexy.ads6x.com >swingers ads and wives amateur couples Swingers Club

Et la sortie du programme antispam :
./antispam.py --verbose -c haypocalc.conf sexy
Match word (+2.0): sexy
Match word (+1.0): adult
Match word (+2.0): sexy
Match word (+1.0): amateur
Match URL (+1.5): http://sexy.ads6x.com
Match URL (+1.5): http://sexy.ads6x.com
Match email domain (+1.0): @gmail.com
sexy score: +7.00 ***SPAM***

L'antispam est écrit en Python et distribué sous licence GPL :
http://haypo.hachoir.org/trac/wiki/antispam

L'algorithme est expliqué sur la page web du projet en anglais. J'ai écrit un article en français qui présente l'algorithme, ses qualités et défauts :
http://www.haypocalc.com/blog/index.php/2008/03/10/137-un-no(...)

Pour l'intégration à Dotclear, punbb, etc. : c'est faisable, mais ces logiciels sont difficiles à patcher. Je ne distribue donc pas de patch automatique. Je peux tenter d'expliquer comment l'intégrer pour les gens intéressés. Pour les autres, regardez le dossier plugin. Niveau dépendance, il faut pouvoir exécuter Python 2.4.

> Lire le journal (49 commentaires, moyenne: 3,1).  

Cette discussion est archivée, il n'est plus possible de laisser des commentaires.

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.

journal.txt score: +29.00 ***SPAM***

Posté par Infernal Quack (Jabber id, page perso, ) le 23/04/2008 à 00:23. (lien). Évalué à 8.

[shift@table-volante antispam]$ ./antispam.py -c conf/antispam.conf journal.txt

Error on initialization: [ValueError] Invalid message format: '"plain"'

[shift@table-volante antispam]$ sed -e 's/"plain"/plain/g' conf/antispam.conf > conf/antispam.conf.new && mv -f conf/antispam.conf.new conf/antispam.conf

[shift@table-volante antispam]$ ./antispam.py -c conf/antispam.conf journal.txt

journal.txt score: +29.00 ***SPAM***

  • [^]Re: journal.txt score: +29.00 ***SPAM***

    Posté par ptifeth (page perso, ) le 23/04/2008 à 09:36. (lien). Évalué à 3.

    Test pertinent.
    En effet, Victor, comment réagit ton outil face à des commentaires qui parlent de spam ?

    Dans le domaine du mail, il est fréquent, bien que ça soit une mauvaise pratique, que des membres d'une mailing list commentent un spam en le citant intégralement, ou en en citant les meilleurs passages. Ce sont des mails très dangereux pour l'apprentissage des antispam bayesiens. Du coup je préfère faire intégralement confiance à l'antispam de la liste et ne filtre pas les messages, ni ne les donne à manger à bogofilter.

    Je pense que des filtrages en amont me permettront d'être plus sélectif : de plus en plus de gens signent leurs messages (gpg), et il est très facile de vérifier les signatures (qui sont téléchargeables) pour garantir à peu près qu'un mail est ham.

    • [^]Re: journal.txt score: +29.00 ***SPAM***

      Posté par moudj (Jabber id, ) le 23/04/2008 à 10:42. (lien). Évalué à 1.

      vous n'avez rien compris...
      En fait, il vient juste de nous dire qu'il a bloqué les commentaires sur son blog ;-)

      --
      echo '16i[q]sa[ln0=aln100%Pln100/snlbx]sbA0D4D465452snlbxq'|dc
    • [^]Re: journal.txt score: +29.00 ***SPAM***

      Posté par Victor STINNER (page perso, ) le 23/04/2008 à 11:12. (lien). Évalué à 6.

      « En effet, Victor, comment réagit ton outil face à des commentaires qui parlent de spam ? »

      Si le spam est détecté comme spam, un message qui le cite risque d'obtenir la même note. Mais ce n'est pas sûr, car l'email de l'expéditeur sera différent, la longueur du message aussi, et si l'antispam possède des listes blanches, le score pourra aussi changer.

      Je ne m'étais jamais posé la question, car je n'ai jamais vu de gens citer un spam... surtout que si le spam est bloqué avant d'arriver dans le blog / la liste de diffusion, on ne peut pas le citer ;-)

  • [^]Re: journal.txt score: +29.00 ***SPAM***

    Posté par Victor STINNER (page perso, ) le 23/04/2008 à 11:50. (lien). Évalué à 3.

    Effictivement, comme ptifeth l'a remarqué, mon antispam n'est pas fait pour les messages citant du spam (partiellement ou intégralement). Si on supprime les spams de mon journal, j'obtiens ça (avec la configuration de mon blog) :
    Match URL (+1.5): http://haypo.hachoir.org/trac/wiki/antispam
    Match URL (+1.5): http://www.haypocalc.com/blog/index.php/2008/03/10/137-un-no
    journal score: -0.50

    La configuration est :
    [analyzer]
    default_score=-3.5
    format=dotclear

    • [^]Re: journal.txt score: +29.00 ***SPAM***

      Posté par Infernal Quack (Jabber id, page perso, ) le 23/04/2008 à 23:07. (lien). Évalué à 3.

      Tu as remarqué que ton fichier de conf avait un problème et que mon sed n'était pas là pour le fun ? :)

      • [^]Re: journal.txt score: +29.00 ***SPAM***

        Posté par Victor STINNER (page perso, ) le 24/04/2008 à 00:58. (lien). Évalué à 2.

        Oui merci, j'ai corrigé juste après avoir lu ton message. Je travaille avec les versions Subversion, je commite sans arrêt :-)

A propos de lutte anti-spam

Posté par MiniMoi () le 23/04/2008 à 00:52. (lien). Évalué à 6.

Je discutais justement de spam avec un collegue qui a essaye de s'heberger lui-meme son serveur mail pendant des annees (ainsi que pour des amis a lui). Il me disait qu'il est a present impossible ou presque de lutter efficacement contre le spam, et que c'est la raison pour laquelle il est passe a GMail, parce que leur filtres sont entraines sur des millions de comptes.

Qu'en pensez-vous ?
Il me semblait aussi que les reseaux bayesiens ne sont plus l'approche la plus efficace, et qu'il faut de plus en plus se tourner vers des methodes de machine learning avancee, comme les SVM ou les kernel method (dans ce cas il faut un gros ensemble d'entrainement, c'est surement pour cela que GMail contient un bouton pour reporter le spam ou les faux positifs http://www.youtube.com/watch?v=8FVme_xIRYk )

  • [^]Re: A propos de lutte anti-spam

    Posté par modr123 () le 23/04/2008 à 01:01. (lien). Évalué à 2.

    la white list est plus efficace a mon avis
    accepter les elails et mettre un motif dans le titre du mail
    je pense a mailfilter qui est pas mal en plus il ne telecharge que les entetes

    --
    pour protester contre la dadvsi , je n'achete plus de produit soumis au droit d'auteur ou voisins
    • [^]Re: A propos de lutte anti-spam

      Posté par seginus () le 23/04/2008 à 07:50. (lien). Évalué à 5.

      Le problème est que cette solution ne peut convenir qu'à un particulier. En effet, en tant que professionnel, avoir du spam non signalé est bien moins grave que d'avoir des mails que l'on aurait du recevoir finissant dans le spam.

  • [^]Re: A propos de lutte anti-spam

    Posté par nyquist () le 23/04/2008 à 08:19. (lien). Évalué à 3.

    Le greylisting est a moi avis très efficace (aujourd'hui).

    J'ai déjà pu le voir employer avec succès sur des serveurs a fort traffic et le nombre de mails (et donc la charge du serveur*) traités ont très fortement diminué. C'est autant de mail en moins à passer à l'antivirus et à spamassassin.

    Ce n'est pas l'arme ultime mais combiné avec une whitelist, une blacklist et spamassassin (ou un autre) ça devient assez efficace.



    * : Biensur la charge de travail des serveurs smtp eux ont augmenté...

  • [^]Re: A propos de lutte anti-spam

    Posté par ahuillet (page perso, ) le 23/04/2008 à 08:20. (lien). Évalué à 2.

    Il me disait qu'il est a present impossible ou presque de lutter efficacement contre le spam

    Tiens donc, je suis exactement de l'avis contraire... spamassassin avec le filtrage bayesien est certes très lent, mais détecte pratiquement tout mon spam sans faux positifs. Je ne sais pas évaluer le taux de faux négatifs mais il est très bas.

    • [^]Re: A propos de lutte anti-spam

      Posté par Jean-Philippe Garcia Ballester (Jabber id, page perso, ) le 23/04/2008 à 09:11. (lien). Évalué à 1.

      Tout à fait d'accord, j'ai un spamassassin sur ma machine avec une bonne grosse dose de spam par jour, et très peu ne passent, genre 2-3 par jour sur plusieurs dizaines de spams.

      • [^]Re: A propos de lutte anti-spam

        Posté par Victor STINNER (page perso, ) le 23/04/2008 à 11:54. (lien). Évalué à 2.

        J'utilise les services d'OVH pour recevoir mon courrier que je récupère en POP3. Au début, je faisais confiance à leur antispam, mais depuis le début de l'année, je recevais de plus en plus en spam. Je pense qu'ils ont baissé la sensibilité des spams à cause d'emails légitimes bloqués.

        Je suis donc passé à SpamAssassin. Après 2 semaines d'apprentissage, je reçois 20 spams (détectés comme spam) par jour, et 2 ou 3 spams non détectés comme spam par semaine (il y en a de moins en moins). Au moins là je contrôle le filtrage (clic sur le bouton Pourriel dans Kmail : envoi du message au script d'apprentissage SpamAssassin).

        • [^]Re: A propos de lutte anti-spam

          Posté par d-jo (page perso, ) le 26/04/2008 à 11:02. (lien). Évalué à 2.

          >Je pense qu'ils ont baissé la sensibilité des spams à cause d'emails légitimes bloqués.

          Ou simplifié les filtres a cause d'un volume a traiter de plus en plus important.

  • [^]Re: A propos de lutte anti-spam

    Posté par Aurélien Le Provost - Ribaltch (page perso, ) le 28/04/2008 à 03:50. (lien). Évalué à 1.

    Il me disait qu'il est a present impossible ou presque de lutter efficacement contre le spam […] Qu'en pensez-vous ?
    Je ne suis pas d'accord. J'ai mon propre serveur mail, avec le mail d'un domaine et des adresses externes regroupées sur un même compte. Je compte sur les doigts d'une main les faux négatifs, et je n'ai jamais eu de faux positifs, juste quels mails légitimes qui atterissent de temps en temps dans le dossier « Suspects ».

    La procédure que j'ai suivi : http://www.aurelp.fr.eu.org/blog/index.php?2006/10/22/28-mai(...)

    --
    Encryption is not magic pixie dust to sprinkle on things to make them more secure.

Et spamassassin ?

Posté par ahuillet (page perso, ) le 23/04/2008 à 08:18. (lien). Évalué à 2.

Salut,

je trouve ça assez incorrect quand quelqu'un présente son soft de rappliquer dans la minute lui expliquer qu'il sert à rien... sauf que je me demande très sincèrement, ton machin a l'air de faire exactement la même chose que spamassassin, alors pourquoi l'avoir écrit toi même ?

La vitesse je suppose ?

  • [^]Re: Et spamassassin ?

    Posté par rewind () le 23/04/2008 à 09:05. (lien). Évalué à 6.

    spamassassin n'est pas sans défaut et toute alternative est bonne à prendre. En matière de luttes contre le spam, la multiplication des solutions est une bonne chose, il ne faut pas se priver d'un nouvel outil. Avec cet outil là, il n'y a pas besoin d'entrainer l'antispam notamment, ça peut servir pour des faibles traffics.

  • [^]Re: Et spamassassin ?

    Posté par Larry Cow () le 23/04/2008 à 09:13. (lien). Évalué à 7.

    Le fait qu'il filtre les commentaires de blog plutôt que les mails?

    • [^]Re: Et spamassassin ?

      Posté par Victor STINNER (page perso, ) le 23/04/2008 à 11:18. (lien). Évalué à 4.

      Sur le page web de mon projet, j'explique pourquoi je n'utilise pas SpamAssassin. J'ai écrit mon propre antispam, car je voulais un logiciel que je maîtrise. Ensuite, SpamAssassin est destiné et entrainé au courriel. Le spam sur blog est différent : style du texte, longueur, syntaxe phpbb (ex: [url=...]) ou HTML, pas de pièce jointe, pas de MIME type, etc. Peut être que SpamAssassin pourrait être utilisé sur un blog. Là tou de suite, je réalise que l'installer sur une machine où on a juste un accès FTP, ça doit être galère (c'est aussi le cas pour mon antispam ;-)).

trier par pays ?

Posté par palm123 (page perso, ) le 23/04/2008 à 09:03. (lien). Évalué à 2.

Je lisais dans le Linux Max sur le serveur Mail que le tri par pays est efficace, malheureusement ce service proposé par maxmind est payant.

Geoiplookup qui est gratuit fonctionne avec une base à jour en 2002...

http://www.maxmind.com/app/products
Pour avoir un tri par pays c'est 50 $ la licence et 12 $ par mois.

Ca peut se justifier pour une entreprise qui va en plus vouloir savoir d'où viennent ses visiteurs.

Je suppose qu'il n'y a pas de base à jour libre.

--
Les logiciels libres ne sont pas à la portée des non-spécialistes, dit Microsoft. Si même un gendarme ou un député est capable de se servir d'un PC sous Gnu/Linux...
  • [^]Re: trier par pays ?

    Posté par Larry Cow () le 23/04/2008 à 09:38. (lien). Évalué à 4.

    Je lisais dans le Linux Max sur le serveur Mail que le tri par pays est efficace

    Jusqu'à ce qu'il ne le soit plus... le souci avec la lutte antispam, c'est que rien n'est définitif, et que toute solution qui se vendrait comme telle est une arnaque potentielle.

    Le seul truc qui pourrait éventuellement durer, c'est de restreindre le réseau (par exemple, aux gens que tu connais). Mais dès que tu permet une ouverture (aux gens qui connaissent des gens que tu connais, par exemple) tu t'exposes à nouveau au spam.

    • [^]Re: trier par pays ?

      Posté par ptifeth (page perso, ) le 23/04/2008 à 10:19. (lien). Évalué à 8.

      Les concepteurs des réseaux de confiance ont pensé à la transitivité : chacun accorde à son prochain un niveau de confiance, et la confiance décroît avec la distance entre les nœuds du réseau.

      On peut même imaginer un réseau de confiance spécialisé dans le spam qui serait initialisé avec des valeurs arbitraires (se souvenir que la confiance que j'accorde à un nœud de distance n est en gros égale à la confiance que lui accorde le nœud de distance (n-1) multipliée par la confiance que j'accorde moi-même à ce nœud :
      ·m'a envoyé 1 hoax : -1%
      ·a continué à m'envoyer des hoax malgré explications : -20%
      ·utilise outlook : -20%
      ·développe des logiciels en Python : +20%
      ...

      Du coup, pour les valeurs de confiance faibles on peut laisser les outils traditionnels de filtrage être plus cruels (spam_threshold--).

  • [^]Re: trier par pays ?

    Posté par Gniarf () le 23/04/2008 à 11:03. (lien). Évalué à 3.

    euh ?

    la base dite GeoLite Country est à coté : http://www.maxmind.com/app/geolitecountry et suffit largement pour dégager, enfin scorer très négativement pas mal de coins du monde (europe de l'est, chine, brésil...) actuellement très pollueurs.

    sinon tu peux utiliser une paire de ressources qui ont la même finalité. une finesse est de séparer les clients de FAI (disons FT ou Free ici, des utilisateurs légitimes comme des gens vérolés - et pour certains pays tu peux te dire 99 % de gens vérolés) des utilisateurs d'entreprises (les gens qui surfent au bureau, en général légitimes) et enfin des ip de datacenters (une véritable plaie : ce sont à 99% des serveurs vérolés, ou pire encore)

    --
    Windows has no users. It has hostages.
    • [^]Re: trier par pays ?

      Posté par plagiats () le 24/04/2008 à 10:55. (lien). Évalué à 2.

      Super discriminant comme méthode je trouve, moinsser directement quelqu'un juste parce qu'il poste depuis le nigeria, le congo, ou la lituanie .. pas top pour le "world wide web". :-/

      --
      La mort est un phénomène naturel qui se produit par l'avalement répété de petites quantités de salive au cours d'une grande période de temps. - George Carlin
      • [^]Re: trier par pays ?

        Posté par Victor STINNER (page perso, ) le 24/04/2008 à 11:42. (lien). Évalué à 3.

        Par expérience, sur mon blog écrit uniquement en français, quand je reçois une URL qui se termine en ".cn" ou ".ru", c'est pour du spam. Je donne donne +3 points à de telles URL (au lieu de 1,5 point). Mais là je parle des liens externes, pas de géolocalisation de l'IP.

      • [^]Re: trier par pays ?

        Posté par Gniarf () le 24/04/2008 à 13:31. (lien). Évalué à 1.

        bah trouve-moi une solution efficace au spam et on en reparle \o/

        à la fin de la journée - ou du mois - c'est juste une histoire de statistiques, le taux d'utilisateurs légitimes que je perds est inférieur (nul, en fait :) au taux d'erreur que je me permets.

        je conçois que pour d'autres usages que le mien ou pour d'autres personnes ça ne soit pas une méthode envisageable, mais ce n'est pas mon cas.

        --
        Windows has no users. It has hostages.
        • [^]Re: trier par pays ?

          Posté par plagiats () le 24/04/2008 à 16:54. (lien). Évalué à 3.

          Tu trouves pas que ta solution, c'est comme dire "expulser hors du territoire toute personne qui perd son emploi, c'est une solution efficace au chômage!" ?

          --
          La mort est un phénomène naturel qui se produit par l'avalement répété de petites quantités de salive au cours d'une grande période de temps. - George Carlin
          • [^]Re: trier par pays ?

            Posté par Gniarf () le 24/04/2008 à 17:38. (lien). Évalué à 3.

            ma solution, comme tu dis, s'applique à mon cas particulier et concerne les problèmes qui se posent à moi, et j'ai bien pris soin de dire que pour d'autres personnes ayant d'autres priorités (genre, au hasard, vouloir fournir une boite aux lettres et un webmail secure anonyme tout ça ouverts à tout le monde, Tibet compris...) ça irait pas forcément.

            donc ton analogie trollesque ne sert à rien et est en fait d'une naïvité affligeante, comme ton commentaire encore au dessus (indique-moi d'ailleurs où tu habites et où tu caches les clés quand tu es en déplacement, merci, et laisse une petite réserve de pognon pour mes besoins personnels au passage)

            si (par exemple) je gère un jeu ou un forum en français pour des français et assimilés, je ne vois aucune raison légitime de laisser passer des ips de pays absolument pas francophones : un peu d'expérience permet de juger très vite à la tête du client, et c'est absolument du délit de sale gueule. car ensuite si d'aventures j'apprends qu'un membre de ce forum part y faire un séjour ou un stage ou me demande d'inscrire un copain qui y est déjà, là je rajoute une exception à la main (car oui il est possible de laisser à coté un moyen de recours, comme un formulaire de contact, les inscrits et les non-inscrits peuvent encore communiquer par d'autres moyens, etc etc...)

            en gros l'administration de mon serveur revient à faire la police et à virer les géneurs : "world wide web" ne veut pas dire "viendez tous chier dans mon jardin !". on a vu ce que ca a donné pour l'email et le spam. libre à toi de laisser la porte ouverte à la botaille de toute la galaxie, moi je préfère m'en passer.

            --
            Windows has no users. It has hostages.
            • [^]J'habite au 1, rue de la banquise 75001 paris

              Posté par plagiats () le 24/04/2008 à 17:56. (lien). Évalué à 2.

              Tu as raison, et si ta solution te conviens parfait.

              --
              La mort est un phénomène naturel qui se produit par l'avalement répété de petites quantités de salive au cours d'une grande période de temps. - George Carlin
              • [^]Re: J'habite au 1, rue de la banquise 75001 paris

                Posté par Gniarf () le 24/04/2008 à 18:17. (lien). Évalué à 2.

                elle est pas parfaite, c'est un choix, un compromis. il y a des garde-fous pour les bavures éventuelles, pour l'instant ça passe.

                vu le nombre de machines vérolées chez Wanadoo et dans une mesure à peine moindre chez les autres FAI français, on n'est pas à l'abri d'une utilisation massive un peu finaude qui contournerait ce type de filtrage.

                pour l'instant ça passe. plus tard, il faudra sûrement trouver autre chose.

                --
                Windows has no users. It has hostages.
                • [^]Re: J'habite au 1, rue de la banquise 75001 paris

                  Posté par chimrod (Jabber id, page perso, ) le 25/04/2008 à 10:12. (lien). Évalué à 2.

                  Il y avait quelques temps, un journal avait été posté, dans lequel l'auteur indiquait avoir mis en place un filtrage, mais les ips filtrées étaient redirigées vers serveur statique, qui affichait un message sur le pourquoi du blocage.

                  Désolé je ne retrouve pas le lien, mais il avait redirigé les ip en local, sur un serveur maintenu par bind.

                  L'avantage est que cela annonce aux personnes pourquoi elles sont bloquées, et laisse la possibilité d'un contact si besoin est.

                  --
                  It is no bug, it's future
  • [^]Re: trier par pays ?

    Posté par Victor STINNER (page perso, ) le 23/04/2008 à 11:46. (lien). Évalué à 3.

    J'ai pensé filtrer selon l'IP et/ou la tranche horaire. Mais je crains que ça bloque des utilisateurs légitimes (ex: leur machine héberge un client d'un botnet :-)). Et puis, les règles actuelles sont déjà pas mal efficaces.

  • [^]Re: trier par pays ?

    Posté par Grégoire G (Jabber id, page perso, ) le 23/04/2008 à 12:52. (lien). Évalué à 2.

    Tiens, mais j'ai ce problème.

    J'ai des clients chinois, et, si j'héberge mon site chez un hébergeur français, il n'est pas visible depuis la Chine continentale.

    Pour les e-mails, c'est le même genre de galère, parfois je reçois les messages, et rarement mon correspond m'indique sur MSN (ben oui, c'est long de leur apprendre ce qu'est Jabber) que je n'ai pas répondu à son dernier e-mail.

    Le filtrage par géolocalisation, s'il est mis en place, doit être configurable utilisateurs par utilisateurs.

    Enfin, la plaie, c'est les postes sous Windows, ceux qui ouent un serveur dédié sans savoir le configurer (ou pire, sous Win), et enfin, les sites hackés.

    Je trouve que jabber, pour s'envoyer des messages est très bien, reste plus qu'une solution agréable de rangements des messages dans l'historique, par exemple : pouvoir lister les sujets, et, mieux, avoir la possibilité de passer des pièces jointes en différé.

    A bientôt
    G

sexy amateur

Posté par Farvardin (page perso, ) le 23/04/2008 à 11:06. (lien). Évalué à 8.

il m'a l'air efficace et mature ton programme, les fonctionnalités sont assez sexy, on voit que ce n'est pas un travail d'amateur !
En plus si c'est assez léger, pas besoin d'un proc bi core pour le faire fonctionner.

=========
Bon, j'espère que l'on pourra poster quand même un tel commentaire sur ton blog...

--
You can't grep dead trees...
  • [^]Re: sexy amateur

    Posté par Victor STINNER (page perso, ) le 23/04/2008 à 11:44. (lien). Évalué à 1.

    Bon, j'espère que l'on pourra poster quand même un tel commentaire sur ton blog...

    Bof, ce message n'a pas trop d'intérêt. À priori, c'est surtout un test pour montrer l'inefficacité du filtrage par mot clé. D'ailleurs, ça m'arrive de supprimer des commentaires (surtout les publicités cachées pour un site perso), je reste maître de mon blog :-p J'ai reçu quelques commentaires avec comme url arrangeur.fr : c'est du cybersquatting de nom de domaine :-(

    J'ai remarqué que les gens motivés pour laisser un commentaire me contactent par email plutôt que d'abandonner leur message. J'aime bien recevoir des emails, alors ça ne me dérange pas ;-)

Autre solution

Posté par lom (page perso, ) le 23/04/2008 à 11:21. (lien). Évalué à 6.

J'utilise pour une form de contact une solution tres simple a mettre en place, et diablement effcace. Je ne suis pas sur que cela puisse s'appliquer a tous les cas, mais ca peut donner des idees.

Il suffit de demander une adresse mail, eventuellement facultative. Au lieu d'avoir un seul champ pour remplir cette adresse, en mettre 2, separes par '@'. Un truc du genre:

Address mail <input name='mail1' type='text'/>@<input type='text' name='mail2'/>

Un commentaire rempli par un bot contiendra 2 adresses mail completes dans mail1 et mail2: chaque partie contiendra le caractere '@' ce qui ne sera pas le cas si le champ a ete rempli par un humain.

Dans mon cas, ce simple test me permet de filter entre 50% et 75% des spams.

En rajoutant a ca le coup du champ invisible cache par css (mais vu dans le source par un bot, et donc rempli dans ce cas), je n'ai presque plus rien.

  • [^]Re: Autre solution

    Posté par Victor STINNER (page perso, ) le 23/04/2008 à 12:00. (lien). Évalué à 3.

    J'ai écrit un article sur le filtrage du spam dans les forums, blogs, etc. :
    http://www.haypocalc.com/blog/index.php/2008/03/09/135-spam-(...)

    La technique du champ HTML caché par CSS... je n'aime pas trop. J'ai lu qu'un utilisateur peut se retrouver dedans en tapant TAB.... mais qu'on peut aussi feinter par Javascript. Au final, on obtient un hack CSS+Javascript, je n'aime pas trop, d'autant que les deux sont optionnels. Mais c'est sûre que ça doit éliminer une grosse partie du spam, un peu comme le greylisting.

    Je pense que le filtrage du contenu est la méthode la plus générique et qui fonctionne sur le long terme. Plus un site un populaire, plus les spameurs veulent le polluer (c'est terrible hein?). Ils vont donc demander à un développeur de contrer les nouvelles protections, et voilà.

    J'ai donc décidé de conserver le formulaire original et de ne pas filtrer l'enveloppe... Tiens, c'est faux, je donne +1 point pour les emails @hotmail.com, @gmail.com , @yahoo.com et @mail.com :-) Oui enfin, je filtre ce qu'envoie l'internaute ou le robot, et pas des champs cachés.

Antispam et Webmail

Posté par Jehan (page perso, ) le 23/04/2008 à 13:09. (lien). Évalué à 2.

Bonjour,

chez moi, j'utilise l'antispam de Thunderbird (utilisant spamassin non?) qui fonctionne vraiment bien.
Néanmoins il m'arrive de partir en vacances (et oui!) ou autre, et dans ce cas, évidemment je ne charge plus mes emails en local, mais les lit depuis divers ordis publics. Or je reçois environ 150 emails par jours, dont une bonne centaine sont des spams. Vous pouvez donc imaginer à quel point cela est douloureux et hasardeux de lire mes emails (surtout que, ne voulant pas passer 3 plombes sur l'ordi en vacs, j'en trouve un une fois tous les 4/5 jours et que je survole juste les titres pour choisir les emails pertinents, donc parfois j'en loupe).
Je viens ainsi de partir 2 semaines en vacances et ai reçu dans ce laps de temps 2000 messages environ. Imaginez donc tout cela dans un webmail, sur un ordi et une connex pourri, avec des pages de 100 emails par page, le tout au même niveau. C'est peu utilisable.

Pour ces cas là, le webmail que j'utilise est très basique: sqwebmail. Je me disais qu'il était peut-être temps de m'installer quelque chose de bien. La fonctionnalité majeure est un super intégré des spams, probablement avec spamassassin (ou tout autre système si ça marche bien). Au niveau du webmail, si ça peut être comme gmail et thunderbird, ce serait cool, à savoir que les spams sont directement envoyés dans un répertoire spam (pas juste taggués), et que je peux les fournir à manger à l'antispam en cas de faux (positifs ou négatifs pour corriger les erreurs dans un sens ou l'autre).

Existe-il quelque chose de bon comme ça; et si oui, avez-vous une référence; sinon que proposez-vous? Connaissez vous d'autres systèmes se rapprochant ou tout aussi pratiques?

Merci.

  • [^]Re: Antispam et Webmail

    Posté par Jean-Philippe Garcia Ballester (Jabber id, page perso, ) le 23/04/2008 à 13:21. (lien). Évalué à 1.

    Un spam assassin directement sur le serveur, avec un cron pour marquer comme spam les messages du dossier Spam, et comme ham les messages des autres dossiers.

  • [^]Re: Antispam et Webmail

    Posté par Victor STINNER (page perso, ) le 23/04/2008 à 13:25. (lien). Évalué à 2.

    J'avais le même problème que toi Jehan. Maintenant j'ai un serveur qui récupère les messages par POP3, puis les remet en ligne via un serveur IMAP. L'avantage est que j'ai aussi un accès IMAPS pour lire mon courrier sur wifi (POP3 envoie le mot de passe en clair, et les messages aussi). Après j'ai greffé SpamAssassin directement sur le serveur, comme ça le spam est tué avec d'arriver dans ma boîte aux lettres (OVH -- pop3 -- spamassassin --> Serveur -- imap(s) --> Kmail / Thunderbird.

    Sinon, il existe des services de courriel gratuit qui filtrent bien le spam (Gmail?), accessible en HTTP, POP3 et IMAP (IMAPS?).

    • [^]Re: Antispam et Webmail

      Posté par Jehan (page perso, ) le 23/04/2008 à 14:31. (lien). Évalué à 2.

      Salut,

      peut-être est-ce parce que je ne connais pas si bien la technologie email, mais je ne comprends pas l'intérêt d'avoir un serveur imap qui va chercher les emails en pop3. Imap et Pop3 ne sont-ils pas 2 protocoles de réception des emails au même niveau (à la différence qu'imap laisse les emails sur le serveur et s'occupe de mettre au même état le serveur et la copie client, plus la sécurisation des transactions et sûrement plein d'autres trucs que je connais pas)?

      Dans ce cas, ton serveur email ne peut-il directement être en IMAP (et même pop3 à la fois d'ailleurs)? Donc une couche au lieu de 2.

      Sinon pour la "tuerie" de spam avant d'arriver dans ta boîte, d'un côté, c'est sûr que c'est plus confortable, en plus ça fait gagner du temps et de la bande passante (pour nos amis les ours). D'un autre côté, ce qui me gêne est de ne pas pouvoir vérifier les spams (bon avec la quantité que je reçois, j'avoue vérifier assez rarement et en survolant vraiment très vite les titres. Néanmoins il m'est arrivé une fois ou 2 de corriger des erreurs...). S'ils restent côté webmail uniquement, je pense que je ne les regarderai jamais.
      En plus ce sera particulièrement important de vérifier les spams dans les premières semaines pour l'apprentissage du filtre.

      • [^]Re: Antispam et Webmail

        Posté par Victor STINNER (page perso, ) le 23/04/2008 à 14:59. (lien). Évalué à 2.

        OVH ne propose pas IMAPS et je préfère filtre sur mon propre serveur. L'idéal serait d'utiliser un seul serveur, mais je ne veux pas héberger de SMTP chez moi et je veux conserver mon adresse @haypocalc.com.

        En fait, j'ai dit une bétise, les spams ne sont pas supprimés. Ils sont tagués et Maildrop s'occupe de les classer dans un dossier SPAM. Je les supprime manuellement.

        • [^]Re: Antispam et Webmail

          Posté par ptifeth (page perso, ) le 23/04/2008 à 15:23. (lien). Évalué à 3.

          Je suis sûr qu'un exemple de .mailfilter et de crontab de traitement des spams est parlant.

          ~/.mailfilter

          BASEFOLDER="~/Maildir"
          SPAMFOLDER="$BASEFOLDER/.detected-spam"
          xfilter 'bogofilter -p -l -u -e -v'
          if (/X-Bogosity: Spam/:hD)
          {
          exception {
          to "$SPAMFOLDER"
          }
          }
          if ( hasaddr(adresse@d'une-mailing-list) )
          {
          to "$BASEFOLDER/.dossier de cette ML"
          }
          if ( /From:.*ma@cherie/:h )
          {
          to "$BASEFOLDER/.cherie"
          }
          [...]
          to $BASEFOLDER


          Toutes les 5 minutes, les mails placés par mes soins dans les dossiers 'ham' et 'spam' sont analysés par bogofilter. Je ne mets plus que les faux positifs (rarement positifs à plus de 50% pour des mails commerciaux en anglais) et les faux négatifs (un peu plus fréquents, faudrait commencer à considérer que 'viaaaagraaaa' et 'viaaaaaaaaaaaaagraaaaaaaaaaaaaaaaaaaa' sont un seul et même mot).

          feth@serveur:~$ crontab -l

          # m h dom mon dow command
          5 * * * * cd /home/feth/Maildir/.spam/cur/ ; for i in $(ls); do bogofilter -s < $i > /dev/null ; rm -f $i; done

          5 * * * * cd /home/feth/Maildir/.ham/cur/ ; for i in $(ls); do bogofilter -n < $i > /dev/null; mv $i /home/feth/Maildir/.ham-done/cur ; done

        • [^]Re: Antispam et Webmail

          Posté par Grégoire G (Jabber id, page perso, ) le 25/04/2008 à 15:06. (lien). Évalué à 3.

          OVH permet l'IMAP.

          Je ne sais pas sur quel type d'hébergement tu es, mais chez moi ça marche très bien, et, je peux utiliser une connexion sécurisée.

          J'ai un 90plan.

          A bientôt
          G

  • [^]Re: Antispam et Webmail

    Posté par Aurélien Le Provost - Ribaltch (page perso, ) le 28/04/2008 à 04:04. (lien). Évalué à 1.

    J'ai posté ici http://linuxfr.org/comments/926221.html#926221 la procédure que j'ai suivi pour mon serveur de mail. Si tu as le temps et la patience nécessaire, ça fait tout : regroupement d'adresses, filtrage des spams (accessibles pour vérification), pop/imap et webmail.

    --
    Encryption is not magic pixie dust to sprinkle on things to make them more secure.

aurtho grafe

Posté par pasBill pasGates () le 24/04/2008 à 02:31. (lien). Évalué à 6.

Un probleme est que la plupart du spam que je recois est ecrit d'une maniere specifique pour eviter les scanners utilisant des dictionnaires.

Typiquement :

A dult plutot que adult

amatteur plutot que amateur

etc...

A noter qu'il y a des algos (ceux utilises par les dicos d'ailleurs) permettant de trouver la "distance" entre les mots, une possibilite serait de regarder l'ensemble des mots avec une distance < X et evaluer si ces mots sont interdits.

yeah !

Posté par Moun's (page perso, ) le 24/04/2008 à 16:03. (lien). Évalué à 2.

je connais un site qui va être heureux de chopper un backlink comme celui de linuxfr.

outre le PR, la position, ca va être le TrustRank qui va monter pour ce site.

Si le domaine n'est pas déjà pris, il va l'être dans les prochaines minutes ca c'est certain :D

  • [^]Re: yeah !

    Posté par Aldoo (Jabber id, ) le 24/04/2008 à 18:11. (lien). Évalué à 3.

    Pff du coup je viens de cliquer sur le lien pour tester... eh bien c'est pas très worksafe...
    Bon et le whois dit que le domaine est réservé depuis mars 2007. C'est malin ça de faire un journal avec un exemple réel !

Revenir en haut de page