StupidFilter : filtrez l'idiotie

Posté par (page perso) . Modéré par Jaimé Ragnagna.
Tags :
4
19
sept.
2008
Éducation
StupidFilter est un projet sérieux : publié sous GPLv2 et écrit en C++, ce logiciel libre tout frais, encore en version 0.2-1, permet de filtrer le net des messages stupides, comme son nom l'indique.

Pour l'instant concentré sur la langue de Shakespeare, il note un contenu textuel par un flottant compris entre 0 et 1, la plus basse note de 0 étant le niveau ayant la plus forte probabilité de stupidité.

L'algorithme est proche de ceux des filtres anti-spam : SVM ou « support vector machine » en V.O. ou encore « machine à vecteurs de support » dans la langue de Molière.

Forcément lucides, les développeurs ont bien conscience qu'un tel logiciel puisse paraître élitiste, et n'ont bien évidemment pas la prétention de remplacer une vraie intelligence artificielle, quand bien même celle-ci serait forcément « subjective » (disons « relative » ?). Après un :
sudo apt-get install build-essential flex libboost-serialization-dev
make
sudo make install

On peut jouer avec :
$ ./classify.sh
Enter text to be classified, hit return to run classification.
Debian roxxxor
Text is not likely to be stupid.
$ ./classify.sh
Enter text to be classified, hit return to run classification.
Templeet suxxx
Text is not likely to be stupid.
$ ./classify.sh
Enter text to be classified, hit return to run classification.
Windows Vista is beautiful
Text is not likely to be stupid.
$ ./classify.sh
Enter text to be classified, hit return to run classification.
Software is like sex, it's better when it's free.
Text is not likely to be stupid.
$ ./classify.sh
Enter text to be classified, hit return to run classification.
Given enough eyeballs, all bugs are shallow
Text is not likely to be stupid.
$ ./classify.sh
Enter text to be classified, hit return to run classification.
I am the king of the wooooorld
Text is not likely to be stupid.
$ ./classify.sh
Enter text to be classified, hit return to run classification.
Luke, I am your father
Text is not likely to be stupid.
$ ./classify.sh
Enter text to be classified, hit return to run classification.
Linux is a cancer
Text is not likely to be stupid.
$ ./classify.sh
Enter text to be classified, hit return to run classification.
Steven Ballmer dancemonkeyboy
Text is not likely to be stupid.
$ ./classify.sh
Enter text to be classified, hit return to run classification.
42
Text is likely to be stupid.

Je vous laisse tester « kikoo » et « lol ». Mdr.
  • # ubuntu ?

    Posté par (page perso) . Évalué à 4.

    Encore un complot pour faire croire que l'idiotie est concentré en une seule distribution !

    Franchement donner des exemples d'installation comme ça, c'est tendre le baton pour ce faire battre ... on est vendredi mais tout de même :)
    • [^] # Re: ubuntu ?

      Posté par (page perso) . Évalué à 2.

      Quel rapport avec ubuntu ?
      • [^] # Re: ubuntu ?

        Posté par . Évalué à 3.

        aucun, mais je crois qu'on est vendredi et que tu as marché dedans (remarque, du pied gauche, ça porte bonheur).
  • # filtre bayésien en plus ?

    Posté par . Évalué à 7.

    Quel intérêt de plus par rapport à un filtre bayésien classique tel qu'implémenté en antispam dans thunderbird ?

    On remplace "indésirable" par "stupide" ou "inutile" et "légitime" par "pertinent" (au hasard ;-)

    Suffit juste de "pertinenter" et d'"inutiliser" différentes phrases lors de la phase d'apprentissage, et on diminuera progressivement les faux-positifs et les faux-négatifs.

    Je ne vois pas pourquoi du coup le contenu textuel testé devrait être en telle langue (ici l'anglais) plutôt qu'une autre... si la phase d'apprentissage est bien faite et suffisamment conséquente, il ne devrait pas y avoir de problème pour différencier plus ou moins automatiquement le français, le langage sms ou le kikoonovlangue.
    • [^] # Re: filtre bayésien en plus ?

      Posté par . Évalué à 2.

      Je ne sais pas comment fonctionne ce truc là, mais il y a un problème avec les filtres anti-spam standards: ils fonctionnent uniquement à l'échelle des mots, pas des phrases. Dans le contexte du spam, on peut supposer que les mots suffisent à faire la distinction entre les messages qu'on est habitué à recevoir et les messages probablement publicitaires. Si ça parle de Viagra, pour la plupart des gens, c'est du spam.

      Si on applique ça à la détection de troll, ça ne marchera pas, sauf si le troll utilise des mots clés ("sux", "roxor", "vim", ...). On ne fera pas la différence entre "Ubuntu est un OS pour débutants, pas comme Windows, qui est pour les professionnels" et "Quand j'étais débutant, mon OS était Windows, mais depuis que je suis entré dans la vie professionnelle, j'utilise Ubuntu".
      • [^] # Re: filtre bayésien en plus ?

        Posté par . Évalué à 1.

        Ouais enfin les exemples donnés dans la dépêche sont pas rassurant.... Je ne vois pas une phrase proposé à classify.sh qui ne soit pas "stupide", et seul 42 est compris comme stupide.
        • [^] # Re: filtre bayésien en plus ?

          Posté par . Évalué à 3.

          Ha ben ça, c'est sûr que les exemples donnés font s'interroger sur la pertinence de la dépêche. Ça donne l'impression que le truc n'a pas été entraîné avant, et qu'il dit que toute phrase assez longue n'est pas stupide.
  • # une idée

    Posté par . Évalué à 1.

    serait peut etre de pouvoir l'utiliser sur linuxfr pour les commentaires ?
    • [^] # Re: une idée

      Posté par . Évalué à 9.

      non, c'est moins cher et plus efficace d'avoir une armée de lecteurs de DLFP pour cliquer sur pertinent ou inutile !

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.