StupidFilter : filtrez l'idiotie

Posté par Nÿco (site web personnel) le 19 septembre 2008 à 13:28. Modéré par Jaimé Ragnagna.

Étiquettes :

sept.

2008

StupidFilter est un projet sérieux : publié sous GPLv2 et écrit en C++, ce logiciel libre tout frais, encore en version 0.2-1, permet de filtrer le net des messages stupides, comme son nom l'indique.

Pour l'instant concentré sur la langue de Shakespeare, il note un contenu textuel par un flottant compris entre 0 et 1, la plus basse note de 0 étant le niveau ayant la plus forte probabilité de stupidité.

L'algorithme est proche de ceux des filtres anti-spam : SVM ou « support vector machine » en V.O. ou encore « machine à vecteurs de support » dans la langue de Molière.

Forcément lucides, les développeurs ont bien conscience qu'un tel logiciel puisse paraître élitiste, et n'ont bien évidemment pas la prétention de remplacer une vraie intelligence artificielle, quand bien même celle-ci serait forcément « subjective » (disons « relative » ?). Après un :

sudo apt-get install build-essential flex libboost-serialization-dev


make


sudo make install

On peut jouer avec :

$ ./classify.sh 


Enter text to be classified, hit return to run classification.


Debian roxxxor


Text is not likely to be stupid.


$ ./classify.sh 


Enter text to be classified, hit return to run classification.


Templeet suxxx


Text is not likely to be stupid.


$ ./classify.sh 


Enter text to be classified, hit return to run classification.


Windows Vista is beautiful


Text is not likely to be stupid.


$ ./classify.sh 


Enter text to be classified, hit return to run classification.


Software is like sex, it's better when it's free.


Text is not likely to be stupid.


$ ./classify.sh 


Enter text to be classified, hit return to run classification.


Given enough eyeballs, all bugs are shallow


Text is not likely to be stupid.


$ ./classify.sh 


Enter text to be classified, hit return to run classification.


I am the king of the wooooorld


Text is not likely to be stupid.


$ ./classify.sh 


Enter text to be classified, hit return to run classification.


Luke, I am your father


Text is not likely to be stupid.


$ ./classify.sh 


Enter text to be classified, hit return to run classification.


Linux is a cancer


Text is not likely to be stupid.


$ ./classify.sh 


Enter text to be classified, hit return to run classification.


Steven Ballmer dancemonkeyboy


Text is not likely to be stupid.


$  ./classify.sh 


Enter text to be classified, hit return to run classification.


42


Text is likely to be stupid.

Je vous laisse tester « kikoo » et « lol ». Mdr.

Aller plus loin

StupidFilter (9 clics)
Démo en ligne (9 clics)
FAQ (11 clics)

# ubuntu ?

Posté par Marc Poiroud (site web personnel) le 19 septembre 2008 à 13:46. Évalué à 4.

Encore un complot pour faire croire que l'idiotie est concentré en une seule distribution !

Franchement donner des exemples d'installation comme ça, c'est tendre le baton pour ce faire battre ... on est vendredi mais tout de même :)
- [^] # Re: ubuntu ?
  
  Posté par vieuxshell (site web personnel) le 19 septembre 2008 à 16:32. Évalué à 2.
  
  Quel rapport avec ubuntu ?
  - [^] # Re: ubuntu ?
    
    Posté par aedrin le 19 septembre 2008 à 16:45. Évalué à 3.
    
    aucun, mais je crois qu'on est vendredi et que tu as marché dedans (remarque, du pied gauche, ça porte bonheur).
    - [^] # Re: ubuntu ?
      
      Posté par vieuxshell (site web personnel) le 20 septembre 2008 à 16:59. Évalué à 1.
      
      Marcher dans un troll ubuntu, même du pied gauche, ça fait mal à l'ego :'(
# filtre bayésien en plus ?

Posté par aedrin le 19 septembre 2008 à 14:38. Évalué à 7.

Quel intérêt de plus par rapport à un filtre bayésien classique tel qu'implémenté en antispam dans thunderbird ?

On remplace "indésirable" par "stupide" ou "inutile" et "légitime" par "pertinent" (au hasard ;-)

Suffit juste de "pertinenter" et d'"inutiliser" différentes phrases lors de la phase d'apprentissage, et on diminuera progressivement les faux-positifs et les faux-négatifs.

Je ne vois pas pourquoi du coup le contenu textuel testé devrait être en telle langue (ici l'anglais) plutôt qu'une autre... si la phase d'apprentissage est bien faite et suffisamment conséquente, il ne devrait pas y avoir de problème pour différencier plus ou moins automatiquement le français, le langage sms ou le kikoonovlangue.
- [^] # Re: filtre bayésien en plus ?
  
  Posté par Yusei (Mastodon) le 19 septembre 2008 à 21:46. Évalué à 2.
  
  Je ne sais pas comment fonctionne ce truc là, mais il y a un problème avec les filtres anti-spam standards: ils fonctionnent uniquement à l'échelle des mots, pas des phrases. Dans le contexte du spam, on peut supposer que les mots suffisent à faire la distinction entre les messages qu'on est habitué à recevoir et les messages probablement publicitaires. Si ça parle de Viagra, pour la plupart des gens, c'est du spam.
  
  Si on applique ça à la détection de troll, ça ne marchera pas, sauf si le troll utilise des mots clés ("sux", "roxor", "vim", ...). On ne fera pas la différence entre "Ubuntu est un OS pour débutants, pas comme Windows, qui est pour les professionnels" et "Quand j'étais débutant, mon OS était Windows, mais depuis que je suis entré dans la vie professionnelle, j'utilise Ubuntu".
  - [^] # Re: filtre bayésien en plus ?
    
    Posté par freeze le 20 septembre 2008 à 15:37. Évalué à 1.
    
    Ouais enfin les exemples donnés dans la dépêche sont pas rassurant.... Je ne vois pas une phrase proposé à classify.sh qui ne soit pas "stupide", et seul 42 est compris comme stupide.
    - [^] # Re: filtre bayésien en plus ?
      
      Posté par Yusei (Mastodon) le 20 septembre 2008 à 18:31. Évalué à 3.
      
      Ha ben ça, c'est sûr que les exemples donnés font s'interroger sur la pertinence de la dépêche. Ça donne l'impression que le truc n'a pas été entraîné avant, et qu'il dit que toute phrase assez longue n'est pas stupide.
# une idée

Posté par pikapika le 21 septembre 2008 à 17:26. Évalué à 1.

serait peut etre de pouvoir l'utiliser sur linuxfr pour les commentaires ?
- [^] # Re: une idée
  
  Posté par aedrin le 21 septembre 2008 à 18:11. Évalué à 9.
  
  non, c'est moins cher et plus efficace d'avoir une armée de lecteurs de DLFP pour cliquer sur pertinent ou inutile !

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.