Suite à l'idée de faire un antispam pour bluesky, j'ai fait un antispam, et ça marche, mais absolument pas comme j'avais prévu.
Comment les meilleures idées théoriques sont poutrées par des idées cons
Théoriquement, le plan était simple :
- je faisais des corpus de mots clés HAM/SPAM ;
- je les normalisais ;
- je faisais les cosinus similarités des « word counter » (compteur de lemmes) entre le texte et les mots clés et j'en déduisais si c'était HAM ou SPAM.
Et ce plan était pourri, jetant dans ma face moult faux positifs. Et j'ai une dent contre le sporn (spam + porn).
Je suis comme tout le monde, j'aime le sexe, mais, j'aime pas qu'on me force de la viande sous mon nez quand j'ai pas demandé, surtout quand ça empêche de voir ce qui se passe de légitime.
X is X of UK
Tout ça c'est de la faute d'une loi passée aux UK qui a entraîné une énorme migration des comptes p0rn de X vers bluesky, et dans le même temps, vu mes graphs d'activité on peut garantir que la sphère francophone est restée sur X, parce que X c'est bien connu est un espace bienveillant envers les progressistes.
Donc entre le moment où j'ai commencé à coder naïvement le bot, j'étais en conditions parfaites (quasiment pas de sporn), et il y a 3 semaines je me suis retrouvé avec un rapport p0rn / signal de 1.
Aujourd'hui (venant du pays d'oïl, je tiens à signaler que hui signifie autant maintenant qu'ici, et qu'au jour d'hui est une répétition au même titre qu'« au jour d'aujourd'hui ») je mange du 2 de p0rn pour 1 de signal.
X for X in post if post["labels"]["val"] is not "porn"
J'ai implémenté un algo bayésien de cosinus similarité, et il marchait pas de ouf, donc, je me suis aussi appuyé sur l'étiquetage (tagging en fr_paris) de bluesky pour blacklister les comptes qui se faisaient taguer par BS (bluesky) comme porn.
Étrangement, les obsédés sexuels, sont des obsédés et ne parlent de rien d'autres, et étrangement, ils sont peu nombreux, mais postent beaucoup.
Cette heuristique à la con qui pourtant n'est pas des plus brillantes de ma carrière bloque 95% des sporns.
Comme quoi, parfois, les idées les plus simples sont parfois les plus efficaces.
Le code est à ièche, faut que je ré-écrive tout, mais il y a une satisfaction à être idiot et que ça marche.
Et donc, des fois que l'envie de jouer avec atproto (le protocole de bluesky dont la doc est imbitable) vous prenne vous avez mon code à dispo qui fait :
- de l'introspection de message,
- de l'envoie de message,
- de l'anti sporn (à la con).
et c'est ici
# NB maj du README sous peu
Posté par Jul (site web personnel) . Évalué à 2 (+1/-0).
Salut,
le code manque de doc :)
La ligne avec l'antispam qui illustre ce journal est exactement ici
Mais, si personne n'est intéressé, j'ai pt'et pas besoin de mettre à jour le README ; c'est du travail :P
Envoyer un commentaire
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.