Faisons un petit point sur une tâche régulière, répétitive et rébarbative liée à LinuxFr.org, qui n’est probablement pas significativement perçue par la plupart des lecteurs (tant mieux) : la gestion du spam, des pénibles publicitaires sans scrupule, de la plaie des SEO, des escroqueries et autres arnaques type scam ou loterie, etc. Bref, des pénibles du quotidien qui ne sont pas des vrais visiteurs du site*, mais qui veulent juste fourguer leur camelote par n’importe quel moyen. Il s’agit d’évoquer les différentes formes que cela prend, les méthodes mises en place pour réduire ou bloquer la nuisance et d’illustrer le propos par divers exemples.
(*) : Je distingue volontairement certains visiteurs du site qui auraient aussi des comportements problématiques, mais différemment (manifestement illégal, discriminatoire, insulte, harcèlement, abus, etc.). Ça pourrait faire un autre bon sujet de dépêche, mais ce n’est pas le sujet de celle‐ci.
Sommaire
Par courriel
Notre serveur de courriel Postfix est configuré avec des listes noires RBL pour filtrer les pénibles en entrée, plus nos propres filtres de pénibles (smtpd_sender_restrictions
, smtpd_client_restrictions
, smtpd_recipient_restrictions
dans main.cf
), plus la liste grise (greylisting), plus le chiffrement TLS obligatoire.
Quelques chiffres
Les statistiques de notre serveur du 28 janvier au 25 février 2018 (soit déjà 77 % de spam/pourriel/polluriel rejetés) :
# zcat -f /var/log/mail.err* /var/log/mail.warn* /var/log/mail.info* /var/log/mail.log*|pflogsumm -q --detail 0
Grand Totals
------------
messages
14542 received
17501 delivered
198 forwarded
353 deferred (11397 deferrals)
528 bounced
59341 rejected (77%)
(...)
Spam en direct
On reçoit du spam directement sur les adresses de courriel publiques (exposées sur la page team, dans le whois, dans les mentions légales, sur nos adresses individuelles, via le site Web de Sympa notre gestionnaire de listes de diffusion, etc. Quelques exemples :
- « Let me share with you something that could make you big bucks » (admin@, juin 2017) ;
- « This company just found a huge cure and no one knows about it yet! » (root@, juin 2017) ;
- « Am liebsten in Christus. » (oumph@, juillet 2017) ;
- « Les 5 astuces de référencement à connaître absolument ! » (contact@, février 2018) ;
- etc.
Spam via notre gestionnaire de listes de diffusion
On reçoit aussi du spam via nos listes de diffusion, via les inscriptions à nos listes, via des usurpations d’adresses, etc. :
- lettre d’info quotidienne d’un spammeur sur sympa@ (novembre 2017) ;
- messages de rejet sympa avec par exemple « La commande a échoué : > Hello », « Commande non comprise : la fin du message est ignorée. » (décembre 2017) ;
- messages de rejet sympa avec To:
<série de chiffres>
@qq.com, quelqu’un énumérant visiblement les identifiants à base de chiffres (numéros de téléphone ?), nous conduisant à mettre @qq.com en liste noire pour être tranquilles (décembre 2017 et janvier 2018) ; - « customers for you » envoyé à redacteurs-request@, l’adresse de gestion de notre liste de rédacteurs (février 2018) ;
- etc.
Spam subtil par courriel aux modérateurs
Enfin, n’oublions pas le spammeur subtil qui écrit aux modérateurs pour signaler un lien mort sur un vieil article (de préférences d’anciens sites plus ou moins institutionnels pour faire sérieux, comme les sites disparus de feu le Forum des Droits sur l’Internet (FDI), de la RGPP (Révision Générale des Politiques Publiques) ou de l’Artesi-IDF. Il nous suggère un lien de remplacement assez bien foutu pour faire illusion, faut ouvrir l’œil (sur contact@ en juillet 2017 et sur moderateurs@ en janvier 2018).
N. B. : J’en ai reçu aussi sur des adresses perso, en anglais, pour la disparition du site du « Linux International Counter », par exemple (qui cherchait à comptabiliser le nombre d’utilisateurs de systèmes à noyau Linux).
Par le site Web
Les contenus
Actuellement le site héberge six types de contenus (dépêches, journaux, forums, sondages, pages wiki, système de suivi).
Dépêches
Les dépêches étant modérées a priori, le spam en soumettant directement une dépêche n’est pas censé passer la modération et être publié. À noter que l’on reçoit aussi régulièrement des demandes réelles par ce biais, qui ont bien plus leur place dans les forums (les dépêches du type « Ma distribution est cassée, que faire ? », « Comment virer ce fichier sous IE 11 ? », « Je suis espionné en permanence, mais je ne suis pas parano. Que faire ? » ou « Linux, c’est vraiment de la merde »).
Quelques exemples récents de spam dans les dépêches reçues en modération :
- « Education : cours de piano à domicile », « Je me permets de vous présenter l’Ecole (…) de Piano. » (juillet 2017) ;
- « je me suis faire arnaquer sur internet aider moi SVP », suivi d’un texte avec fautes, incitant à envoyer un courriel si l’on a aussi été victime d’arnaque, probablement pour collecter des adresses de cibles « faciles » (avril 2017) ;
- « clonecard a vendre, acheter clonecard, clonecard en vente, vendeur serieux de clonecard », pour vendre des cartes bancaires contrefaites ou volées, seules les fautes sont gratuites (décembre 2016) ;
- « Yescard », même chose (octobre 2016) ;
- « Tee-shirt pub pas cher » (septembre 2016) ;
- « make money 2016 », par un spammeur anglophone égaré (juillet 2016) ;
- etc.
Évidemment si la dépêche n’est pas soumise anonymement, le compte est désactivé (et l’adresse IP et/ou le motif d’adresse de courriel est vérifié sur les autres comptes à tout hasard).
Il arrive aussi des tentatives de spam via l’espace de rédaction : tenter de placer en douce un lien au milieu d’une dépêche en cours de rédaction ou dans la tribune de ladite dépêche.
Exemple :
- dans une dépêche : « Le nouveau noyau est, comme d’habitude, téléchargeable sur les serveurs du
[
site](http://spam.invalid)
kernel.org. » (février 2018) ; - dans une tribune de dépêche : « 2017-08-07 18:18:02 le.spammeur joignez l’utile à l’agréable et profiter de formations certifiantes au Maroc ; vous pouvez checker ce lien pour davantage d’information: url ».
Système de suivi des suggestions et des bogues
Second type de contenus qui peut aussi être soumis anonymement et sans modération a priori : les entrées dans le système de suivi des suggestions et des bogues. Quelques exemples : diverses entrées pour vendre des batteries, du désimlockage de mobiles, des « voyages et circuits au Sénégal » ou des « Women’s (…) shoes », etc. Le spammeur a bien identifié le côté anglophone globe‐trotter et féminin de notre lectorat.
Sondages
Je n’ai pas souvenir de spam dans les sondages (modérés a priori aussi, mais nécessitant un compte), j’imagine qu’ils sont trop rares par rapport aux autres contenus pour avoir attiré les spammeurs humains ou robots.
Journaux
Les journaux (non modérés a priori, nécessitant un compte et un karma minimal) sont une cible plus fréquente des spammeurs (visant les bilingues en manque d’argent et fétichistes des robes) :
- « Ravi de vous rencontrer » et juste avant « Nice to meet you », avec apparemment une arnaque à la rencontre (octobre 2016) ;
- « How Bachelor Contestants Pack For The Show » (octobre 2016) ;
- « Financement de prêt immobilier ou projets sérieux_ » (septembre 2016) ;
- « Liens vers (…relou…)production » pour vanter une chaîne YouTube (mai 2016) ;
- « Cette ligne 3D-imprimé des robes Marque À Superbe Couture Futuriste » (mars 2016) ;
- « Vous avez besoin d’argent pour faire un achat important ? » (janvier 2016) ;
- etc.
Forums
Mais les forums (non modérés a priori, nécessitant un compte, sans karma minimal) sont actuellement la zone la plus spammée. Quelques exemples variés :
- « SOLUTION FIABLE DE PRÊT ENTRE PARTICULIERS SÉRIEUX » (août 2017) ;
- « Crédit en Ligne : Demande de prêt , Recherche de prêt , Besoin de financement » (août 2017) ;
- « Starting your own coding business » (août 2017) ;
- « Remplacement serrure saint german el laye » (avril 2017) ;
- « cracker mot de passe email facebook / sniffer gsm sms » (avril 2017) ;
- « Windows 10 Support » (janvier 2017) ;
- « Acheter le permis de conduire légalement » (décembre 2016) ;
- « How to Rip Video from DVD – Watch Video Anywhere and Anytime » (décembre 2016) ;
- etc.
Pages wiki
La partie wiki (non modérée a priori, nécessitant un compte et un karma minimal) est parfois victime du spam aussi :
- une vague conséquente de 80 d’un coup en juillet 2016, anglophones, pour des prétendus numéros d’appel vers les supports techniques ou équipe sécurité de gros acteurs ;
- « ECHANGER PCS BITCOIN » (février 2016) ;
- « Offre de prêt entre particulier (crédit) pour tous » (janvier 2016) ;
- « Enhance Reputation of Your Business with Seo(…relou…).com » (septembre 2015) ;
- une page en lien avec le recyclage, en turc (juin 2015) ;
- etc.
Curatif et préventif, on fait quoi ?
Curatif : ajout d’un tag « spam » (un des soucis est qu’il est utilisé aussi pour signaler du spam que pour parler spam et antispam, comme ici) et/ou signalement par les visiteurs, retrait/masquage du contenu par un modérateur, fermeture du compte par un admin, IP et/ou motif de l’adresse de courriel vérifié sur les autres comptes à tout hasard, et en cas de répétition blocage de l’adresse IP (ou d’une plage d’adresses IP), les contenus à score négatif sont classés, ni indexation, ni suivi des liens pour les moteurs de recherche.
Préventif : modération a priori sur certains contenus, nécessité d’avoir un compte pour certains contenus, karma minimal pour certains contenus. On pourrait imaginer d’autres mécanismes (alertes ou blocages sur certains mots‐clés, liens suspects, motifs d’adresses de courriel ou des plages d’adresses IP, etc.), la plupart pouvant entraîner du sur‐blocage ou être peu accueillants pour des nouveaux‐venus (pensez aux débutants arrivant dans les forums par exemple).
Quelques entrées de suivi liées au sujet du spam et de la modération :
- Bloquer un spammeur en un clic ;
- Empêcher la publication des dépêches contenant le message par défaut ;
- Avoir ou pas des justifications ;
- Tracer les opérations d’administration/modération ;
- Imposer le choix d’une section lors de la création d’une nouvelle dépêche ;
- etc.
Commentaires
Après les contenus eux‐mêmes, la deuxième fonction la plus utilisée pour le spam reste les commentaires. Avec l’espoir souvent déçu de placer sa cochonnerie en douce, sans être remarqué·e (sur un vieux contenu juste avant la limite des trois mois ou bien sur un contenu très largement commenté ou en Une.
Différents styles de spammeurs existent (je ne détaillerai pas qui paraissent les plus subtils et intelligents entre les bots et les humains…) :
- le bourrin, qui bourre uniquement d’hyperliens, plein (le dernier en janvier 2018). Existe en version débutant qui utilise un autre balisage par exemple « [URL]…[/URL] » (toujours en janvier 2018) ;
- le commentaire qui pourrait être pertinent, avec son petit lien planqué vers la fin, mais en anglais (le dernier en février 2018) ;
- le commentaire faussement aidant, par exemple « Nous sommes de la Brigade anti‐fraude (…) » sur un sujet lié à la fraude (relevant probablement plus de l’escroquerie que du simple spam) (février 2018) ;
- le commentaire extatique, par exemple sur une dépêche sur GitLab « Un grand projet à lever le chapeau ! » et ensuite un petit lien vers des « médecins esthétiques » (février 2018) ;
- le commentaire fourbe, qui est un copier‐coller d’un commentaire déjà existant sur le même contenu ou parfois carrément pris sur un autre site suite à une recherche rapide avec les mots clés du contenu ; bref, un commentaire qui a l’air un peu pertinent et avec un lien dissimulé sur un caractère de ponctuation.
Exemple :
- « Cela ferait pas mal de route pour venir mais le concept me plaît bien
<a href="http://seo-relou.invalid">.</a>
Y a‐t‐il un site dédié à l’événement ? » (février 2016) ; - « _Merci également pour toute cette doc
<a href="http://pneuagricolepourseorelou.invalid">!</a>
ça va bien m’aider :) » (janvier 2017) ; - « C’est exactement ce que je cherchais pour mon usage perso du bon coin, merci du partage
<a href="http://seo.dating.invalid/">!</a>
(mai 2017) ; - ouvrir un compte le 19 janvier 2018, écrire un premier commentaire pour se légitimer (il aura même une réponse bien notée), alors qu’il s’agit d’un copier‐coller à l’identique d’un commentaire de mai 2017 de developpez.com, pour placer le 20 janvier un second commentaire avec un lien promotionnel en signature.
Une entrée de suivi liée au spam dans les commentaires :
Comptes utilisateur et site perso
Sur environ 3 000 comptes utilisateur valides et utilisés au cours des trois derniers mois, environ un quart utilise la fonctionnalité de « site perso », défini dans les préférences du compte et affiché sur les contenus ou commentaires du compte.
Évidemment les pénibles de SEO y ont vu un moyen d’enlarger leur référencement, ce qui nous a conduit à un « affichage du “site perso” d’un compte suivant son karma et son rôle », limitant l’affichage à ceux qui ont un karma strictement supérieur au karma initial.
Tags
Nous avons aussi quelques cas de tags de spam (qui sont masqués par la modération).
Exemples :
- « surpuissantlaser3000mwlaser » (avril 2014) ;
- « mutuellecomparatif » (janvier et novembre 2012) ;
- etc.
Conclusion
J’espère avoir donné un petit panorama varié des publicitaires pénibles et des SEO sans scrupule, bref du spam reçu/subi par l’équipe LinuxFr.org. C’est malheureusement un travail régulier de les bouter hors d’ici : chaque lettre rétrospective de la quinzaine passée, comme les deux dernières de fin janvier / début février 2018, mentionne le sujet, inlassablement. Avec un peu de chance, l’équipe agit suffisamment vite pour que vous n’en perceviez qu’une petite partie (idéalement 0). Lorsque vous détectez du spam, n’hésitez pas à nous le signaler (tag spam sur un contenu, par tribune de rédaction, par courriel, etc., peu importe), on adore le bruit que cela fait quand on l’écrase.
Si vous avez vous‐même une expérience sur le spam sur votre propre site ou dans une autre communauté, si vous avez des idées d’outils ou de configuration, n’hésitez pas à partager dans les commentaires.
Et si vous êtes un spammeur/SEO et que vous voulez placer vos solutions dans lesdits commentaires parce que ça a l’air bien ici ça parle spam et SEO, sachez que je vous conchie.
Aller plus loin
- Signaler un contenu illicite sur Internet (gouv.fr) (141 clics)
- Spam (sketch des Monty Python) (240 clics)
# Être plus pourri que l'adversaire
Posté par Kerro . Évalué à 5.
Faire en sorte qu'ils en fasse perdre le moins possible à l'équipe de modération, et transforme l'inconvénient en avantage :
demander une participation de 1 € par an et par compte (sérieux, ça vire direct 99 % des cloportes humains ou pas). Les modérateurs ont le droit de taper dans la caisse
la création d'un compte nécessite de valider un contrat stipulant que c'est un service publicitaire éphémère (une pub = 1 minute garantie, au delà c'est au pif) ayant pour tarif 10000 € par pub --> toute publicité fait l'objet d'une ponction de 10000 € sur la carte bancaire. Le lubrifiant est fourni avec la facture
si le visiteur est un indexeur connu, ne pas lui servir les contenus dont l'auteur est plus récent que 30 jours ET ayant posté moins de 5 contenus ET ayant un karma supérieur à xxx --> le spammeur ne peut pas se rendre compte que son truc ne fonctionne pas, les moteurs de recherche n'indexent pas. Au pire les visiteurs humains tombent sur un spam de temps en temps
ajouter à côté de « pertinent / inutile » un bouton « c'est un spam ». Si le ratio est d'un clic pour 10 vues, alerter l'équipe de modération. Ça soulagerait l'équipe de modération qui n'aurait alors qu'à valider/invalider ?
… c'est tout ce qui me vient à l'esprit. Il y a probablement plein d'autres suggestions
[^] # Re: Être plus pourri que l'adversaire
Posté par Benoît Sibaud (site web personnel) . Évalué à 7.
J'ai oublié de mentionner l'entrée de suivi « Ajouter un bouton "signaler un truc" » dans la dépêche.
[^] # Re: Être plus pourri que l'adversaire
Posté par claudex . Évalué à 5.
Ça n'enlèverait pas les comptes normaux qui spam. À moins que tu veuille parler de tous les comptes.
Ça me semble assez lourd au niveau administratif.
Ça ne marchera pas à mon avis. Le spam attire le spam. Si les autres spammeurs potentiels voient qu'il y a moyen de mettre du spam (même si ça ne marche pas, il y a plein de cas sur le site de lien en nofollow qui sont quand même mis par les spammeurs. Ils ne sont pas très regardant (et sont sans doute payés pour poster des liens, pas pour le référencement)). Ils vont aussi se mettre à poster du spam.
Je crois qu'il y a déjà eu une demande à ce sujet. On attend le patch :)
« Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche
[^] # Re: Être plus pourri que l'adversaire
Posté par Kerro . Évalué à 3.
Une case à cocher, ce n'est pas ce que je nomme lourd.
Où alors tu parles de créer le contrat. Là ok, ça prend quelques heures.
# Merci, courage et bravo !
Posté par Julien_J06 . Évalué à 10.
Hello,
Tout d'abord merci pour le travail au quotidien fait pour que linuxfr.org soit disponible.
Courage car je vois que c'est sacrément du boulot et je ne pensais pas que le spam pouvait être aussi pénible.
Bravo car je vois très rarement du spam ici, j'ai découvert au fur et à mesure de la lecture les foultitudes de spam dont linuxfr.org était l'objet et c'est pas rien en effet. Des pénibles y'en a à profusion de ce que j'en comprends.
Encore merci :-)
Julien_c'est_bien (y'a pas que Seb)
# Excellent Article!%21%21%21%21%21%21%21%21%21%21%21
Posté par eingousef . Évalué à 10.
I am amazed by the quality of the content you produced!!!111oneoneone
Let me improve it even more by adding a link to an awesome website that will increase your pagerank and the size of your penis, for free!!!
[URL]https://linuxfr.org/board [/URL]
[URL]https://linuxfr.org/users/houplaboom/journaux/ahahahah-en-mode-rigolo [/URLE]
[URL]https://dlfp.moul.es/fortunes [/HURLE]
*splash!*
[^] # Re: Excellent Article!%21%21%21%21%21%21%21%21%21%21%21
Posté par Leniwce . Évalué à 5. Dernière modification le 26 février 2018 à 12:06.
Trop gros. Personne ne va cliquer sur ce site d'extremistes addictes a la recompense.
attention chérie ça va moinsser
# Bounce spam
Posté par fcartegnie . Évalué à 10.
C'est du bounce spam vers la messagerie qq. Le but étant de faire renvoyer le texte d'origine en erreur à l'expéditeur forgé.
La seule solution c'est de ne jamais renvoyer de message d'erreur quand la box de destination est invalide ou de ne jamais citer le contenu du message d'origine.
# Les SEO lists
Posté par fcartegnie . Évalué à 10. Dernière modification le 26 février 2018 à 16:09.
On a un gros problème de spam quotidien sur les forums de videolan.
On avait des RBL, inefficaces.
Un check sur cleantalk montrait qu'on était majoritairement apparemment frappé en premier.
On pensait à des bots, j'ai changé les captchas en manuel régulièrement et c'était donc que de l'humain.
Puce à l'oreille un jour avec "seo" dans certaines adresses.
A tout hasard j'ai googlé "seo forum.videolan.org".
Je vous laisse constater par vous même l'origine du problème.
Malheureusement, pas grand chose à faire contre ces connards, à part blacklister l'ensemble des IP Indiennes, Pakistanaises, ukrainiennes et russes (la majorité du spam).
Dans leur techniques, en dehors de celles mentionnées dans ce journal
- Ouvrir un compte et attendre un temps défini avant de spammer
- Ouvrir un compte et poster un message anodin "thanks, that did help", "good work"
- Ouvrir un compte et copier des réponses existantes et les poster ailleurs
- Un des messages précédents qui est édité plus tard pour insérer le spam
Ca demande donc de monitorer l'activité de tous les profils, et pas que les nouveaux.
Très couteux en temps, et pénible :/
[^] # Re: Les SEO lists
Posté par Psychofox (Mastodon) . Évalué à 2.
J'ai le même genre de problème sur un forum que je gère. À priori c'est effectivement du spam humain.
Pour l'instant on utilise essentiellement de la geoip comme protection apparemment la majorité ne sont pas au fait des vpn mais bon ça ne tiendra qu'un temps et bien que ce soit un forum francophone nous avons des membres expatriés ou qui postent en voyage.
Je suis en train de regarder pour utiliser une solution à base de questions/réponses sur sa motivation à rejoindre le forum. Ce sera chronophage pour les admins s'il y'a beaucoup d'inscriptions mais je doute qu'un vrai spammeur s'emmerde à perdre de précieuses minutes à ça.
[^] # Re: Les SEO lists
Posté par Benoît Sibaud (site web personnel) . Évalué à 6. Dernière modification le 26 février 2018 à 17:33.
Les trois premières, on a déjà. La dernière, je ne l'ai jamais rencontrée. On a aussi pas mal de comptes ouverts et jamais utilisés, qui sont soit des vrais spammeurs qui n'ont jamais réussi à spammer (bots ou humains dysfonctionnels), soit des utilisateurs légitimes (et c'est assez indiscernable sur un compte sans contenu sans commentaire et qui a le même domaine pour le courriel qu'un tiers des comptes valides par exemple, tout en ayant une IP dans une plage tout aussi indiscernable).
C'est aussi pour ça qu'il y a
^W
euh non rien.Et évidemment un autre problème que je n'ai pas mentionné : le besoin de bienveillance pour les nouveaux. On ne peut pas demander à chaque nouvel inscrit, un dossier complet avec copie de passeport, un mot des parents, une caution bancaire, une clé GPG premium et un compte IRC certifié, plus une période de surveillance avec modération a priori pour chaque caractère tapé. Donc y a un compromis entre la forteresse vide, et l'agora avec un videur discret pour les indélicats.
[^] # Re: Les SEO lists
Posté par B r u n o (site web personnel) . Évalué à 2.
En parlant de spam de SEO, je pense que les commentaires #1730500 et #1730559 de l'article sur G'MIC sont en plein dans la cible
[^] # Re: Les SEO lists
Posté par Benoît Sibaud (site web personnel) . Évalué à 3.
Pour le second c'est fort possible (traduction approximative depuis l'anglais?), donc je l'ai traité. Pour le premier, l'adresse de courriel correspond au magazine, le nom correspond à celui d'un des rédacteurs, je penche plutôt pour une demande légitime pour l'instant.
[^] # Re: Les SEO lists
Posté par B r u n o (site web personnel) . Évalué à 2.
Pour le premier, tu as raison, cela semble légitime, il y a déjà eu des articles sur G'MIC sur le site pointé. Cela me semblait louche car il n'y avait pas de moyen de joindre la personne… pardon au familles, tout ça !
# Spam referer
Posté par Funix (site web personnel, Mastodon) . Évalué à 1.
'lut,
je serais curieux de savoir comment vous gérez le referer spam (si vous en avez) dans vos stats d'accès qui génère une telle pollution qu'il est difficile d'en extraire une info utile
https://www.funix.org mettez un manchot dans votre PC
[^] # Re: Spam referer
Posté par Benoît Sibaud (site web personnel) . Évalué à 3.
On en a un peu, mais ça reste très faible (et on n'affiche pas les Referrer dans les logs publics) : sur les logs du jour, sans trier beaucoup, ça fait moins de 23,3k sur 1,4M de hits.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.