Le sujet m'intéresse à deux titres : faire un antispam pour LinuxFr.org (bayésien ou liste de blocage) et pour le service share vers les réseaux sociaux (m'avait bien semblé aussi que la doc était cryptique/peu pédagogique.
La doc de bsky je sais pas si c'est une IA ou un humain qui l'a pondu, mais elle répond à des tas de questions sauf celles que je me pose.
J'ai pas bien dû comprendre les tutos que j'ai trouvé sur le filtrage bayésien car pour moi, la technique que j'ai implémentée n'est pas digne d'une probabilité bayésienne mais correspond à un bête cosinus similarité, que j'implémente nativement pour les dict avec archery.
Cette méthode est utilisée en dernier recours car elle présente moults faux positifs/faux négatifs (~5%, ~10%). Ce qui sur le nombre est beaucoup.
Situation actuelle : une liste de blocage utilisée a posteriori et manuellement d'une part (entrée de suivi quelque part que je ne retrouve pas), et un code pas mis en service d'autre part.
Le code BS à l'air bon au vu de mes (petites) connaissances. Je devrais dire «c'est pas bien d'être sur X», et que vu que t'es en logique de pousser et non de tirer du contenu comme je le fais tu te moques un peu du sporn.
Pour l'instant actuel, le spam est d'origine porn. Ce que je fais, c'est que j'attends que les modos BS l'étiquette porn et je fais la liste de blocage avec les alias bloqués. Ce qui m'oblige à temporairement corriger manuellement (d'où l'interface websocket de gestion).
Pour ton cas, ça nécessite de réagir à chaud, ce qui va à mon avis nécessité une interface d'étiquetage.
Un truc qui aide comme conseillé dans le précédent journal, c'est la détection de langue : un contenu tagué fr en anglais en général c'est pas bon signe. Et c'est pas mal de spam viré :)
Heureusement, les spammeurs varient pas trop leurs adresses d'envois et bien que notables sont faciles à bloquer (ma liste de blocage contient 243 entrées)
C'est l'outil que j'avais en tête, j'ai du l'utiliser par le passé. Et c'est effectivement un truc qu'il va falloir que j'utilise. +1, merci pour le lien.
Pour l'instant, j'essaie avant d'augmenter la complexité, de contrôler humainement les entrées et je tente de diminuer les degrés de libertés.
Je gravis les échelons de la complexité en shootant un problème après l'autre, là mon problème immédiat c'est :
1- de faire le word counter (compteur de mot) ;
2- me souvenir de comment faire un test de dépendance en Xhi2 et la page wikipedia me paraît plus obscure que mes souvenirs.
RIP = "rest in peace" (en) = "repose en paix" (fr)
Surtout que j'ai vécu la misère au Québec à cause des calques à l'anglais, genre y disent tu : prends ta chance (take a chance) quand nous on cause de tenter sa chance.
Je suis bye-lingual, parlant anglais avec ma femme, qui n'était pas francophone quand on s'est rencontré, je n'arrive plus à me tenir à une langue et je caviarde les deux langues de l'autre, et je suis dans le bloubiboulga linguistique permanent. Je te présente mes excuses.
Si le bilinguisme pur en deux langues existe, sans calques, sans emprunts … j'ai du mal à y croire. Encore un mythe perso qui s'effondre.
Depuis que j'ai mis un algo plus sage qui ne cible que les posts avec beaucoup de likes, quotes, réponses, le robot n'a plus de réactions en retour et ne semble plus attirer les réponses/likes…
Autrement dit, c'est devenu un bête robot de mesure qui modifie pas le système qu'il observe.
C'est un peu ce que je cherchais, mais quelque part je me dis que dans un monde qui donne toujours plus d'expositions aux gens déjà exposés, l'algo imparfait de la v1 était peut être une influence positive parfois irritante pour les petits comptes. Ça reste bien de se poser la question de l'influence voulue ou non par le truchement d'outils.
J'ai commencé un truc ambitieux dont j'ai le début, mais j'ai pas la suite, là maintenant : vous auriez pas un peu d'inspiration ?
Ça commence par
La déqualification des métiers intellectuels
Être qualifié, c'est être autonome sur le choix de ses tâches, et comment les accomplir
-toujours en étant autonome- dans le contexte d'un chantier. Malheureusement …
julie1 parce que quand je vais sur des forums techniques ça permet d'avoir des réponses plus vite parce que les mecs me prennent pour une fille (on sait pas pourquoi :D).
En plus ça permet de sortir des bons clashs aux gros relouds qui pm pour draguer genre : mec, si je suis un canon, toi t'es un boulet, et c'est pas les boulets qui tirent les canons.
Mais à noter que la tendance aux pms pour la drague ainsi que la vitesse de réponse supérieure a bien bien diminuée depuis quelques années. J'en déduirais presque que l'internet technique est devenu un peu moins toxique pour les femmes avec juste un exemple si j'étais malhonnête.
Ce que tu appelles des contraintes, quand je suis chargé de psychtropes (pour raisons de douleurs malheureusement et pas par récréation) je ne les suis pas, donc non, pour cette autre logiciel scam (voir chapitre psycodélique) dont le manuel est tout sauf écrit dans le carcan d'une veine technique, elle ne m'empêche pas de coder des logiciels.
En fait, maintenant que je ne suis plus sous droooogues (c'est mal), je suis justement en train gentiment de le remettre au carré.
Car ce que tu appelles des contraintes, j'appelle ça le métier. Comme l'ouvrier qui range son établi (qu'il soit cuisinier ou mécanicien), nous codeurs dont les points faibles sont la mémoire et l'incapacité à multi-processer mentalement, ne pas avoir la galère de se retrouver avec une pile de modifs non commitées pour des bugs résolus et d'autres aggravés j'appelle ça le cœur du métier.
(Tiens d'ailleurs j'ai été interrompu trois fois par ma femme pour faire des tâches ménagère pendant l'écriture de cette réponse.)
Garder l'établi mental propre. Pouvoir être interrompu et reprendre là où l'on en était ça peut être fait de la manière que les gens veulent (ce qui importe c'est le résultat, pas l'outil) … j'appelle ça être propre.
En plus comme je suis flemmard et que je fais pas de backup et que je suis fauché, il se trouve que je fonctionne pour toutes ces raisons avec github. Comme un morpion anarchiste suçant le sang du mastodon microsoft pour le faire souffrir. Ça fait que je fonctionne avec un jeu d'usage (ticket, fix, release) réduit qui ressemblent à s'y méprendre à des tocs.
mes-tocs-to-logique on appelle ça. Ou méthodologie pour faire instruit.
:D
Nan sérieux, je veux pas faire la morale, mais, il y a des trucs comme la doc (avec synopsis et API), les tickets, la licence, les versions, gérer proprement ces versions c'est juste les coutures du travail.
Et comme quand on s'intéresse à la couture, on voit qu'il y a dans la couture une partie utilitaire, mais aussi d'esthétique, des variations culturelles et comme pour la couture, ça dessine notre plus petite unités de travail non réductible. Certains travaillent à mailles serrées (yahi), d'autres à mailles large (scam) et j'aime bien varier les plaisirs, mais rétrospectivement, je conseille de travailler (surtout quand c'est pour un hobby, ou votre femme et votre fille sont des sources d'interruption constantes et qu'on aimerait coder et pas démêler ses modifs) à mailles serrées.
Enfin, c'est mon contexte de personne interrompue souvent qui dicte mon choix.
[^] # Re: .
Posté par Jul (site web personnel) . En réponse au journal la chronique du bot bluesky : rétrospective. Évalué à 2 (+1/-0).
Évidemment.
[^] # Re: NB maj du README sous peu
Posté par Jul (site web personnel) . En réponse au journal J'ai niqué le p0rn : l'antispam qui marchait (étrangement). Évalué à 2 (+1/-0).
J'ai trouvé des stats meilleures que les miennes en RRD et c'est là où l'on voit que je mesure uniquement les POSTS francophones.
[^] # Re: NB maj du README sous peu
Posté par Jul (site web personnel) . En réponse au journal J'ai niqué le p0rn : l'antispam qui marchait (étrangement). Évalué à 2 (+1/-0).
La doc de bsky je sais pas si c'est une IA ou un humain qui l'a pondu, mais elle répond à des tas de questions sauf celles que je me pose.
J'ai pas bien dû comprendre les tutos que j'ai trouvé sur le filtrage bayésien car pour moi, la technique que j'ai implémentée n'est pas digne d'une probabilité bayésienne mais correspond à un bête cosinus similarité, que j'implémente nativement pour les dict avec archery.
Cette méthode est utilisée en dernier recours car elle présente moults faux positifs/faux négatifs (~5%, ~10%). Ce qui sur le nombre est beaucoup.
Le code BS à l'air bon au vu de mes (petites) connaissances. Je devrais dire «c'est pas bien d'être sur X», et que vu que t'es en logique de pousser et non de tirer du contenu comme je le fais tu te moques un peu du sporn.
Pour l'instant actuel, le spam est d'origine porn. Ce que je fais, c'est que j'attends que les modos BS l'étiquette porn et je fais la liste de blocage avec les alias bloqués. Ce qui m'oblige à temporairement corriger manuellement (d'où l'interface websocket de gestion).
Pour ton cas, ça nécessite de réagir à chaud, ce qui va à mon avis nécessité une interface d'étiquetage.
Un truc qui aide comme conseillé dans le précédent journal, c'est la détection de langue : un contenu tagué fr en anglais en général c'est pas bon signe. Et c'est pas mal de spam viré :)
Heureusement, les spammeurs varient pas trop leurs adresses d'envois et bien que notables sont faciles à bloquer (ma liste de blocage contient 243 entrées)
Graph d'activité sur le BS francophone
# NB maj du README sous peu
Posté par Jul (site web personnel) . En réponse au journal J'ai niqué le p0rn : l'antispam qui marchait (étrangement). Évalué à 3 (+2/-0).
Salut,
le code manque de doc :)
La ligne avec l'antispam qui illustre ce journal est exactement ici
Mais, si personne n'est intéressé, j'ai pt'et pas besoin de mettre à jour le README ; c'est du travail :P
# antispam naïf
Posté par Jul (site web personnel) . En réponse au journal Sur le chemin de l'antispam bluesky. Évalué à 1 (+0/-0).
Bon, je m'essaye avec les tutos du web à l'antispam (https://www.kdnuggets.com/2020/07/spam-filter-python-naive-bayes-scratch.html) sur ma base de connaissance et c'est pas fameux : https://gist.github.com/jul/0c9bc59c954bc5e9829599a6cd501b6b
Avec ou sans application des formules bayésiennes j’obtiens le même résultat
Autrement dit je tourne à entre 16 et 10% de faux positifs.
[^] # Re: Détection de langue
Posté par Jul (site web personnel) . En réponse au journal Sur le chemin de l'antispam bluesky. Évalué à 1 (+0/-0).
C'est l'outil que j'avais en tête, j'ai du l'utiliser par le passé. Et c'est effectivement un truc qu'il va falloir que j'utilise. +1, merci pour le lien.
Pour l'instant, j'essaie avant d'augmenter la complexité, de contrôler humainement les entrées et je tente de diminuer les degrés de libertés.
Je gravis les échelons de la complexité en shootant un problème après l'autre, là mon problème immédiat c'est :
1- de faire le word counter (compteur de mot) ;
2- me souvenir de comment faire un test de dépendance en Xhi2 et la page wikipedia me paraît plus obscure que mes souvenirs.
[^] # Re: Faux ami
Posté par Jul (site web personnel) . En réponse au journal mon bot va mourir : RIP. Évalué à 3 (+2/-0).
Surtout que j'ai vécu la misère au Québec à cause des calques à l'anglais, genre y disent tu : prends ta chance (take a chance) quand nous on cause de tenter sa chance.
Et c'est partout, insidieusement.
Sus aux faux amis !
[^] # Re: Bronsonisation
Posté par Jul (site web personnel) . En réponse au journal mon bot va mourir : RIP. Évalué à 4 (+3/-0).
Il est bronsonisé :)
Il le méritait.
# bip .... biiiiiiiiip
Posté par Jul (site web personnel) . En réponse au journal mon bot va mourir : RIP. Évalué à 2 (+1/-0).
Sa mort est effective.
Je le regretterais, autant que d'avoir rencontré une communauté -certes petites- que son histoire a pu un peu amusé.
Reste en paix, petit robot mort trop tôt (à l'âge de 1 mois) sans que j'ai eu le temps de faire mumuse avec toi.
[^] # Re: filtre bayésien
Posté par Jul (site web personnel) . En réponse au journal mon bot va mourir : RIP. Évalué à 1 (+0/-0).
ça aussi c'est au dessus de mon niveau :)
Je suis une tanche.
[^] # Re: Bronsonisation
Posté par Jul (site web personnel) . En réponse au journal mon bot va mourir : RIP. Évalué à 2 (+1/-0).
Raah, je ne saisis pas la ref :)
[^] # Re: yolo
Posté par Jul (site web personnel) . En réponse au journal C'est compliqué ; la vie avec mon bot. Évalué à 2 (+1/-0).
trinquons :)
Je lève mon verre de thé glacé à l'argot et toutes ses nuances de mouises qui nous dessinent.
[^] # Re: yolo
Posté par Jul (site web personnel) . En réponse au journal C'est compliqué ; la vie avec mon bot. Évalué à 2 (+1/-0).
J'ai loupé la moitié des anglicismes :D
Je suis bye-lingual, parlant anglais avec ma femme, qui n'était pas francophone quand on s'est rencontré, je n'arrive plus à me tenir à une langue et je caviarde les deux langues de l'autre, et je suis dans le bloubiboulga linguistique permanent. Je te présente mes excuses.
Si le bilinguisme pur en deux langues existe, sans calques, sans emprunts … j'ai du mal à y croire. Encore un mythe perso qui s'effondre.
# PS
Posté par Jul (site web personnel) . En réponse au journal La gloire avec un bot bluesky. Évalué à 5 (+4/-0).
Depuis que j'ai mis un algo plus sage qui ne cible que les posts avec beaucoup de likes, quotes, réponses, le robot n'a plus de réactions en retour et ne semble plus attirer les réponses/likes…
Autrement dit, c'est devenu un bête robot de mesure qui modifie pas le système qu'il observe.
C'est un peu ce que je cherchais, mais quelque part je me dis que dans un monde qui donne toujours plus d'expositions aux gens déjà exposés, l'algo imparfait de la v1 était peut être une influence positive parfois irritante pour les petits comptes. Ça reste bien de se poser la question de l'influence voulue ou non par le truchement d'outils.
[^] # Re: Trouvé
Posté par Jul (site web personnel) . En réponse au journal La gloire avec un bot bluesky. Évalué à 2 (+1/-0).
J'ai impersonnifié le bot, j'ai pas retrouvé le truc sur le harcèlement.
En tout cas, pas dans les dernières 24h.
En tout cas, c'est étonnant, mais un des sujets qui revient le plus en ce moment, c'est la chaleur.
[^] # Re: Trouvé
Posté par Jul (site web personnel) . En réponse au journal La gloire avec un bot bluesky. Évalué à 2 (+1/-0).
j'ai limité la visibilité du bot pour éviter encore plus de feedback.
[^] # Re: Trouvé
Posté par Jul (site web personnel) . En réponse au journal La gloire avec un bot bluesky. Évalué à 3 (+2/-0). Dernière modification le 30 juin 2025 à 07:54.
C'est malheureusement ce que l'algo twitter/X faisait : indiquait là où il y avait du fight et envoyait les gens se taper les uns sur les autres.
Par contre vu l'audience du bot, actuelle, je doute que le bot soit présentement capable d'attirer l'extrême droite.
Et oui, un objet de mesure qui modifie la chose qu'il mesure, n'est plus un objet de mesure, mais un objet de manipulation.
Je pense arrêter l'expérimentation sous peu en ayant peut être ouvert une boîte de pandore.
[^] # Re: Trouvé
Posté par Jul (site web personnel) . En réponse au journal La gloire avec un bot bluesky. Évalué à 2 (+1/-0).
yep, c'est lui.
Pas très smart :o)
# manque d'inspiration sur un sujet (les mines)
Posté par Jul (site web personnel) . En réponse au journal Un nouveau livre libre sur un sujet absolument pas passionnant comme d'habitude :). Évalué à 0 (+0/-1).
J'ai commencé un truc ambitieux dont j'ai le début, mais j'ai pas la suite, là maintenant : vous auriez pas un peu d'inspiration ?
Ça commence par
Et là je blo
[^] # Re: Pourvu que ça dure
Posté par Jul (site web personnel) . En réponse au journal Un nouveau livre libre sur un sujet absolument pas passionnant comme d'habitude :). Évalué à 5 (+5/-1).
julie1 parce que quand je vais sur des forums techniques ça permet d'avoir des réponses plus vite parce que les mecs me prennent pour une fille (on sait pas pourquoi :D).
En plus ça permet de sortir des bons clashs aux gros relouds qui pm pour draguer genre : mec, si je suis un canon, toi t'es un boulet, et c'est pas les boulets qui tirent les canons.
Mais à noter que la tendance aux pms pour la drague ainsi que la vitesse de réponse supérieure a bien bien diminuée depuis quelques années. J'en déduirais presque que l'internet technique est devenu un peu moins toxique pour les femmes avec juste un exemple si j'étais malhonnête.
[^] # Re: Pourvu que ça dure
Posté par Jul (site web personnel) . En réponse au journal Un nouveau livre libre sur un sujet absolument pas passionnant comme d'habitude :). Évalué à 5 (+5/-1).
j'étais jul avant lui :D
[^] # Re: Muraille, charge perfectionnelle
Posté par Jul (site web personnel) . En réponse au journal loser du libre. Évalué à 3.
Ce que tu appelles des contraintes, quand je suis chargé de psychtropes (pour raisons de douleurs malheureusement et pas par récréation) je ne les suis pas, donc non, pour cette autre logiciel scam (voir chapitre psycodélique) dont le manuel est tout sauf écrit dans le carcan d'une veine technique, elle ne m'empêche pas de coder des logiciels.
En fait, maintenant que je ne suis plus sous droooogues (c'est mal), je suis justement en train gentiment de le remettre au carré.
Car ce que tu appelles des contraintes, j'appelle ça le métier. Comme l'ouvrier qui range son établi (qu'il soit cuisinier ou mécanicien), nous codeurs dont les points faibles sont la mémoire et l'incapacité à multi-processer mentalement, ne pas avoir la galère de se retrouver avec une pile de modifs non commitées pour des bugs résolus et d'autres aggravés j'appelle ça le cœur du métier.
(Tiens d'ailleurs j'ai été interrompu trois fois par ma femme pour faire des tâches ménagère pendant l'écriture de cette réponse.)
Garder l'établi mental propre. Pouvoir être interrompu et reprendre là où l'on en était ça peut être fait de la manière que les gens veulent (ce qui importe c'est le résultat, pas l'outil) … j'appelle ça être propre.
En plus comme je suis flemmard et que je fais pas de backup et que je suis fauché, il se trouve que je fonctionne pour toutes ces raisons avec github. Comme un morpion anarchiste suçant le sang du mastodon microsoft pour le faire souffrir. Ça fait que je fonctionne avec un jeu d'usage (ticket, fix, release) réduit qui ressemblent à s'y méprendre à des tocs.
mes-tocs-to-logique on appelle ça. Ou méthodologie pour faire instruit.
:D
Nan sérieux, je veux pas faire la morale, mais, il y a des trucs comme la doc (avec synopsis et API), les tickets, la licence, les versions, gérer proprement ces versions c'est juste les coutures du travail.
Et comme quand on s'intéresse à la couture, on voit qu'il y a dans la couture une partie utilitaire, mais aussi d'esthétique, des variations culturelles et comme pour la couture, ça dessine notre plus petite unités de travail non réductible. Certains travaillent à mailles serrées (yahi), d'autres à mailles large (scam) et j'aime bien varier les plaisirs, mais rétrospectivement, je conseille de travailler (surtout quand c'est pour un hobby, ou votre femme et votre fille sont des sources d'interruption constantes et qu'on aimerait coder et pas démêler ses modifs) à mailles serrées.
Enfin, c'est mon contexte de personne interrompue souvent qui dicte mon choix.
[^] # Re: Python 2, abandonné?
Posté par Jul (site web personnel) . En réponse à la dépêche yahi un agrégateur de statistiques dans l'esprit d'awstats. Évalué à 1.
yep l'opérateur walrus := est introduit à partir de python 3
J'aurais pu faire sans, mais c'est plus pratique.
https://docs.python.org/3/whatsnew/3.8.html#assignment-expressions
[^] # Re: épilogue (un)
Posté par Jul (site web personnel) . En réponse au journal loser du libre. Évalué à 1.
Imprimé et bientôt encadré :D
[^] # Re: je me reconnais
Posté par Jul (site web personnel) . En réponse au journal loser du libre. Évalué à 1.
Tiens j'ai rajouté du contenu la partie « VRP du libre ».
http://jul.github.io/cv/yahi.html#prendre-sa-casquette-de-repr%C3%A9sentant