Un autre trollomètre (ne vous étonez pas de la différence de scores, la technologie est différente, il s'agit de "velu inside").
Ici (en mode verbeux): http://www.nakan.ch/trollometre.php(...)
Le source est là:
la chose la plus importante c'est la façon dont sont organisée les discution. un test nombre de post / nombre de thread devrait donner une bonne idée de la teneur en troll.
et pour plus de précision, on peut diviser par le nombre de thread superieur a un quota, histoire de ne pas comptabiliser les thread d'un ou deux posts, qui sont eux meme en général des lancés de trolls plantés.
Pas mal, mais il faudrait y rajouter des valeurs plus ou moins grandes liées à l'association d'expression (genre VI proche de EMACS).
De plus, il faudrait faire nuancer les chiffres en fonction des --~-~->[pouët pouët], ;), :+), et autres <ON><OFF>.
Ensuite, il faudrait étudier dans le page le nombre de fois que deux ou trois mêmes identifiants sont présents pratiquement sans discontinuité, mais la ça deviendrait un détecteur de flames.
Ensuite mettre des valeurs très élevées dès que des insultes de types "communiste" "nazi" ou pire "bébé cadum" sont employées. Le point Godwin devrait être proche des 10000.
Y'aurait pas moyen de donner ça à manger à un bogofilter, histoire d'avoir un truc un peu plus balaize et qui puisse améliorer sa détection... Finalement c'est assez proche du problème SPAM/NOSPAM, non ?
Pour entrainer un filtre bayesien à la bogofilter, il faut un oracle. Dans le cas du spam, on en a un excellent : une boite étiquetée "spam" et une "ham", du blanc et du noir bien distincts, avec rapidement des centaines ou milliers d'exemples à se mettre sous la dent.
Mais là, pour utiliser la même technique, il faudrait se cogner des centaines de pages et dire au logiciel "tu vois, ça c'était un troll" ou bien "ça c'était une discussion saine". Ça serait terriblement rébarbatif à faire (sauf éventuellement en distribué avec beaucoup de contributeurs).
Et quand bien même on trouverait les ressources pour le faire, je ne suis pas persuadé que le résultat serait terriblement précis. Un troll ne se reconnait pas à des mots clefs pondérés et considérés indépendament les uns des autres (ce sur quoi reposent je crois les filtre bayesiens) : une pages à 100 occurences de "Emacs" peut parfaitement être simplement technique, ainsi qu'une page avec 100 occurences de "Vi", alors que par contre une page avec 50 "Emacs" et 50 "Vi" est forcement trollesque. Et ça n'est qu'un exemple pour illustrer que le problème est différent, mais on pourrait penser à d'autres critères encore : par exemple, il y a des chances que dans un arbre de discussion comme les commentaires de linuxfr, des critères de formes (profondeurs de certaines branches, etc.) permettrait de détecter des trolls sans même regarder le lexique employé. Là, on arrive très loin du filtre bayesien. Enfin bref, vaste sujet, sûrement très rigolo pour des gens qui serait branchés analyse de textes, data mining et compagnie...
Ce genre de classification statistique, ça marche généralement en établissant un profil du texte à partir de trigrammes (et non de mots, pour des raisons de pertinence).
Donc en principe, si un document contenant une forte concentration des trigrammes d'"emacs" et de ceux de "vi" est trouvé, on peut le rapprocher des autres du même genre (en clair: des trolls emacs/vi).
Bon ok, dans mon exemple, on détecterait aussi un comparatif emacs/vi comme étant un troll, mais à nous de lui apprendre à reconnaître certaines mots/trigrammes propres au troll ("god", "odw", "dwi" et "win", notamment).
M'enfin hormis l'aspect rébarbatif de l'apprentissage, je ne vois pas bien en quoi ça serait impossible, ni en quoi ça serait très différent du filtrage antispam: on a un corpus à répartir en deux catégories (troll, pas-troll) suivant des fréquences d'apparition de motifs particuliers dans le texte. Si on voulait vraiment affiner (mais j'ai pas eu l'impression que trollmaster le fasse), on pourrait rajouter des critères de structure (distances minimales et maximales entre deux occurences de tel mot, etc.). Mais on doit pouvoir s'en sortir sans.
Moi j'veux bien contribuer mais seulement si ca respecte les standards :p et que c'est libre. Et comme c'est ecrit en Java je n'aurai qu'une chose a dire : JAVA CAPUECESTPASLIBRE :p
J'ai un probleme avec les couleurs de ce site (le rouge sur bleu scintille chez moi). Il manque un point virgule après le premier "white" dans la feuille de style. Est-il possible de changer de couleurs?
Moi c'est effectivement en smarturl que je l'utilise, en lui donnant un petit nom ("troll" en l'occurence). Je m'en sert pour connaitre le score de la page que je consulte, en tapant "troll" dans la barre d'adresse devant son url. C'est effectivement pas très ergonomique, mais perso c'est toujours comme ça que je fais, disons que ça me suffit.
Avec galeon, t'es de toute façon assez limité, le seul truc mieux auquel je peux penser serait d'avoir le code en simple url et d'y récupérer l'url de la page courante au lieu de la prendre en '%s'. Mais je sais pas comment on fait, j'suis une biquette en JS.
Avec Firefox, y'aurait sûrement moyen de faire des trucs plus sexy encore, genre le coup du click droit proposé plus bas, mais alors là ça dépasse encore plus mes compétences.
# Euh
Posté par cho7 (site web personnel) . Évalué à 6.
[^] # Re: Euh
Posté par Pierre Tramonson . Évalué à 2.
Il faut recalibrer le trollMaster ;)
Mais c'est rigolo dans le principe pour vérifier certaines URL avant d'aller lire ce qui s'y trouve.
[^] # Re: Euh
Posté par nakan (site web personnel) . Évalué à 3.
[^] # Re: Euh
Posté par Calim' Héros (site web personnel) . Évalué à 3.
p2p, culture, musique, pascal nègre, pirate
Je propose aussi une notation exponentiel : plus on trouve de mots de la même categorie plus on a de chance de faire pété le score
[^] # Re: Euh
Posté par Matthieu BENOIST . Évalué à 2.
[^] # Re: Euh
Posté par Matthieu BENOIST . Évalué à 2.
[^] # Re: Euh
Posté par Bruce Le Nain (site web personnel) . Évalué à 4.
De plus, il faudrait faire nuancer les chiffres en fonction des --~-~->[pouët pouët], ;), :+), et autres <ON><OFF>.
Ensuite, il faudrait étudier dans le page le nombre de fois que deux ou trois mêmes identifiants sont présents pratiquement sans discontinuité, mais la ça deviendrait un détecteur de flames.
Ensuite mettre des valeurs très élevées dès que des insultes de types "communiste" "nazi" ou pire "bébé cadum" sont employées. Le point Godwin devrait être proche des 10000.
Bref,
<ON>;=)-->[<OFF>]
[^] # Re: Euh
Posté par Matthieu BENOIST . Évalué à 2.
[^] # Re: Euh
Posté par jigso . Évalué à 2.
[^] # Re: Euh
Posté par tgl . Évalué à 5.
Mais là, pour utiliser la même technique, il faudrait se cogner des centaines de pages et dire au logiciel "tu vois, ça c'était un troll" ou bien "ça c'était une discussion saine". Ça serait terriblement rébarbatif à faire (sauf éventuellement en distribué avec beaucoup de contributeurs).
Et quand bien même on trouverait les ressources pour le faire, je ne suis pas persuadé que le résultat serait terriblement précis. Un troll ne se reconnait pas à des mots clefs pondérés et considérés indépendament les uns des autres (ce sur quoi reposent je crois les filtre bayesiens) : une pages à 100 occurences de "Emacs" peut parfaitement être simplement technique, ainsi qu'une page avec 100 occurences de "Vi", alors que par contre une page avec 50 "Emacs" et 50 "Vi" est forcement trollesque. Et ça n'est qu'un exemple pour illustrer que le problème est différent, mais on pourrait penser à d'autres critères encore : par exemple, il y a des chances que dans un arbre de discussion comme les commentaires de linuxfr, des critères de formes (profondeurs de certaines branches, etc.) permettrait de détecter des trolls sans même regarder le lexique employé. Là, on arrive très loin du filtre bayesien. Enfin bref, vaste sujet, sûrement très rigolo pour des gens qui serait branchés analyse de textes, data mining et compagnie...
[^] # Re: Euh
Posté par Larry Cow . Évalué à 2.
Donc en principe, si un document contenant une forte concentration des trigrammes d'"emacs" et de ceux de "vi" est trouvé, on peut le rapprocher des autres du même genre (en clair: des trolls emacs/vi).
Bon ok, dans mon exemple, on détecterait aussi un comparatif emacs/vi comme étant un troll, mais à nous de lui apprendre à reconnaître certaines mots/trigrammes propres au troll ("god", "odw", "dwi" et "win", notamment).
M'enfin hormis l'aspect rébarbatif de l'apprentissage, je ne vois pas bien en quoi ça serait impossible, ni en quoi ça serait très différent du filtrage antispam: on a un corpus à répartir en deux catégories (troll, pas-troll) suivant des fréquences d'apparition de motifs particuliers dans le texte. Si on voulait vraiment affiner (mais j'ai pas eu l'impression que trollmaster le fasse), on pourrait rajouter des critères de structure (distances minimales et maximales entre deux occurences de tel mot, etc.). Mais on doit pouvoir s'en sortir sans.
# Trolleur
Posté par fredd . Évalué à 2.
[^] # Re: Trolleur
Posté par cho7 (site web personnel) . Évalué à 2.
51 c'est presque correcte sur linuxfr.org
Sur google.fr tu as un PDT de 20 environ
[^] # Re: Trolleur
Posté par cho7 (site web personnel) . Évalué à 2.
# Les distributions les plus trollesques
Posté par morgendorffer . Évalué à 1.
http://www.redhat.com/(...) : 30
http://fedora.redhat.com/(...) : 31
http://www.debian.org/(...) : 31
http://www.gentoo.org/(...) : 20
http://www.slackware.org/(...) : 11
La Faq de lkml est un score de 80 !
Très beta comme logiciel.
[^] # Re: Les distributions les plus trollesques
Posté par Colin Leroy (site web personnel) . Évalué à 4.
http://linuxfr.org/~lmouillart/16719.html(...) tape le 100. Pas si mal.
Sinon, où est le source ? :)
[^] # Re: Les distributions les plus trollesques
Posté par Calim' Héros (site web personnel) . Évalué à 3.
[^] # Re: Les distributions les plus trollesques
Posté par Matthieu Moy (site web personnel) . Évalué à 3.
Ben soit la technologie coincoin inside a été mise a jour depuis l'abolition de susecapusaipalibre, soit y'a un gros bug.
# C'est tout pourri...
Posté par Calim' Héros (site web personnel) . Évalué à 5.
Par exmple ce journal est a 0 en https (https://linuxfr.org/~cho7/16730.html(...)) contre 71 en http (http://linuxfr.org/~cho7/16730.html(...)) (au moment ou je vous l'écrit)
Moi j'veux bien contribuer mais seulement si ca respecte les standards :p et que c'est libre. Et comme c'est ecrit en Java je n'aurai qu'une chose a dire : JAVA CAPUECESTPASLIBRE :p
# record ?
Posté par riba . Évalué à 2.
no comment.
[^] # Re: record ?
Posté par jaroug (site web personnel) . Évalué à 1.
http://linuxfr.org/2004/04/28/16117.html(...)
http://www.myjavaserver.com/~cho7/result.jsp?txtUrl=http%3A%2F%2Fli(...)
171.0 PDT
# couleurs
Posté par plagiats . Évalué à 3.
J'ai un probleme avec les couleurs de ce site (le rouge sur bleu scintille chez moi). Il manque un point virgule après le premier "white" dans la feuille de style. Est-il possible de changer de couleurs?
# Les sources
Posté par Bloodshed . Évalué à 4.
# bookmarklet
Posté par tgl . Évalué à 4.
javascript:(function(){
document.open();
uri='http://www.myjavaserver.com/~cho7/result.jsp';
f=document.createElement('form');
f.method='get';
f.action=uri;
i0=document.createElement('input');
i0.type='text';
i0.name='txtUrl';
i0.value='%s';
f.appendChild(i0);
b=document.createElement('body');
b.appendChild(f);
h=document.getElementsByTagName('html')[0];
h.appendChild(b);
f.submit();})()
(enfin bien sûr faut virer tous les retours chariot, je les ai mis pour pas dégueuler à droite de la page)
[^] # Commentaire supprimé
Posté par Anonyme . Évalué à 1.
Ce commentaire a été supprimé par l’équipe de modération.
[^] # Re: bookmarklet
Posté par tgl . Évalué à 2.
Avec galeon, t'es de toute façon assez limité, le seul truc mieux auquel je peux penser serait d'avoir le code en simple url et d'y récupérer l'url de la page courante au lieu de la prendre en '%s'. Mais je sais pas comment on fait, j'suis une biquette en JS.
Avec Firefox, y'aurait sûrement moyen de faire des trucs plus sexy encore, genre le coup du click droit proposé plus bas, mais alors là ça dépasse encore plus mes compétences.
# DoS ?
Posté par mac_is_mac (site web personnel) . Évalué à 2.
Puisque la cible est explicitement linuxfr, autant faire ça en statique et ne regénérer la page que périodiquement, non ?
[^] # Re: DoS ?
Posté par jms . Évalué à 0.
# plugin
Posté par bouhh . Évalué à 1.
[^] # Re: plugin
Posté par Larry Cow . Évalué à 2.
# myjavaserver
Posté par gc (site web personnel) . Évalué à 2.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.