• # Euh

    Posté par  (site web personnel) . Évalué à 6.

    Je ne l'ai pas précisé, mais il s'agit d'une version béta, donc pas toujours très fiable et pas très esthétique non plus. Mais j'y travaille :-)
    • [^] # Re: Euh

      Posté par  . Évalué à 2.

      111 sur la tribune.
      Il faut recalibrer le trollMaster ;)

      Mais c'est rigolo dans le principe pour vérifier certaines URL avant d'aller lire ce qui s'y trouve.
    • [^] # Re: Euh

      Posté par  (site web personnel) . Évalué à 3.

      Un autre trollomètre (ne vous étonez pas de la différence de scores, la technologie est différente, il s'agit de "velu inside"). Ici (en mode verbeux): http://www.nakan.ch/trollometre.php(...) Le source est là:
      <?php
      if (!isset($url)) {
       echo '
       
       Détécteur de trolls (velu inside)
       Page à analyser: 
       
       ';
      }
      
      else {
       // Ouverture de l'URL en lecture
       if (@fopen($url, "r")) {
        $ptr = @fopen($url, "r");
        $contents = '';
        while (!feof($ptr)) {
         $contents .= fread($ptr, 8192);
        }
        fclose($ptr);
        
        $trollCnt = 0;
        // Batterie de tests de trolls:
        $velu[0] = "troll|5";
        $velu[1] = "windows|5";
        $velu[2] = "microsoft|5";
        $velu[3] = "linux|1";
        $velu[4] = "mac os x|3";
        $velu[5] = "debian|5";
        $velu[6] = "mandrake|5";
        $velu[7] = "gentoo|5";
        $velu[8] = "proprietaire|7";
        $velu[9] = "proprio|7";
        $velu[10] = "mieux que|7";
        $velu[11] = "java|7";
        $velu[12] = "asp|4";
        $velu[13] = "apple|3";
        $velu[14] = "rms|5";
        $velu[15] = "stallman|5";
        $velu[16] = "capucestpaslibre|15";
        
        for ($i = 0; $i < sizeof($velu); $i++) {
         $tresVelu = explode("|", $velu[$i]);
         $nb = substr_count(strtolower($contents), strtolower($tresVelu[0]));
         echo "WORD: " . $tresVelu[0] . " (" . $tresVelu[1] . ") * $nb = " . ($nb * $tresVelu[1]) . "";
         $trollCnt += ($nb * $tresVelu[1]);
        }
        echo "TOTAL: $trollCnt";
       }
       else {
        echo "Erreur d'ouverture de la page :-(";
       }
      }
      
      ?>
      
      Vous pouvez donc modifier le score de chaque mot, et en ajouter :-)
      • [^] # Re: Euh

        Posté par  (site web personnel) . Évalué à 3.

        ajout a faire :

        p2p, culture, musique, pascal nègre, pirate

        Je propose aussi une notation exponentiel : plus on trouve de mots de la même categorie plus on a de chance de faire pété le score
        • [^] # Re: Euh

          Posté par  . Évalué à 2.

          la chose la plus importante c'est la façon dont sont organisée les discution. un test nombre de post / nombre de thread devrait donner une bonne idée de la teneur en troll.
          • [^] # Re: Euh

            Posté par  . Évalué à 2.

            et pour plus de précision, on peut diviser par le nombre de thread superieur a un quota, histoire de ne pas comptabiliser les thread d'un ou deux posts, qui sont eux meme en général des lancés de trolls plantés.
      • [^] # Re: Euh

        Posté par  (site web personnel) . Évalué à 4.

        Pas mal, mais il faudrait y rajouter des valeurs plus ou moins grandes liées à l'association d'expression (genre VI proche de EMACS).

        De plus, il faudrait faire nuancer les chiffres en fonction des --~-~->[pouët pouët], ;), :+), et autres <ON><OFF>.

        Ensuite, il faudrait étudier dans le page le nombre de fois que deux ou trois mêmes identifiants sont présents pratiquement sans discontinuité, mais la ça deviendrait un détecteur de flames.

        Ensuite mettre des valeurs très élevées dès que des insultes de types "communiste" "nazi" ou pire "bébé cadum" sont employées. Le point Godwin devrait être proche des 10000.


        Bref,

        <ON>;=)-->[<OFF>]
        • [^] # Re: Euh

          Posté par  . Évalué à 2.

        • [^] # Re: Euh

          Posté par  . Évalué à 2.

          Y'aurait pas moyen de donner ça à manger à un bogofilter, histoire d'avoir un truc un peu plus balaize et qui puisse améliorer sa détection... Finalement c'est assez proche du problème SPAM/NOSPAM, non ?
          • [^] # Re: Euh

            Posté par  . Évalué à 5.

            Pour entrainer un filtre bayesien à la bogofilter, il faut un oracle. Dans le cas du spam, on en a un excellent : une boite étiquetée "spam" et une "ham", du blanc et du noir bien distincts, avec rapidement des centaines ou milliers d'exemples à se mettre sous la dent.

            Mais là, pour utiliser la même technique, il faudrait se cogner des centaines de pages et dire au logiciel "tu vois, ça c'était un troll" ou bien "ça c'était une discussion saine". Ça serait terriblement rébarbatif à faire (sauf éventuellement en distribué avec beaucoup de contributeurs).

            Et quand bien même on trouverait les ressources pour le faire, je ne suis pas persuadé que le résultat serait terriblement précis. Un troll ne se reconnait pas à des mots clefs pondérés et considérés indépendament les uns des autres (ce sur quoi reposent je crois les filtre bayesiens) : une pages à 100 occurences de "Emacs" peut parfaitement être simplement technique, ainsi qu'une page avec 100 occurences de "Vi", alors que par contre une page avec 50 "Emacs" et 50 "Vi" est forcement trollesque. Et ça n'est qu'un exemple pour illustrer que le problème est différent, mais on pourrait penser à d'autres critères encore : par exemple, il y a des chances que dans un arbre de discussion comme les commentaires de linuxfr, des critères de formes (profondeurs de certaines branches, etc.) permettrait de détecter des trolls sans même regarder le lexique employé. Là, on arrive très loin du filtre bayesien. Enfin bref, vaste sujet, sûrement très rigolo pour des gens qui serait branchés analyse de textes, data mining et compagnie...
            • [^] # Re: Euh

              Posté par  . Évalué à 2.

              Ce genre de classification statistique, ça marche généralement en établissant un profil du texte à partir de trigrammes (et non de mots, pour des raisons de pertinence).

              Donc en principe, si un document contenant une forte concentration des trigrammes d'"emacs" et de ceux de "vi" est trouvé, on peut le rapprocher des autres du même genre (en clair: des trolls emacs/vi).

              Bon ok, dans mon exemple, on détecterait aussi un comparatif emacs/vi comme étant un troll, mais à nous de lui apprendre à reconnaître certaines mots/trigrammes propres au troll ("god", "odw", "dwi" et "win", notamment).

              M'enfin hormis l'aspect rébarbatif de l'apprentissage, je ne vois pas bien en quoi ça serait impossible, ni en quoi ça serait très différent du filtrage antispam: on a un corpus à répartir en deux catégories (troll, pas-troll) suivant des fréquences d'apparition de motifs particuliers dans le texte. Si on voulait vraiment affiner (mais j'ai pas eu l'impression que trollmaster le fasse), on pourrait rajouter des critères de structure (distances minimales et maximales entre deux occurences de tel mot, etc.). Mais on doit pouvoir s'en sortir sans.
  • # Trolleur

    Posté par  . Évalué à 2.

    Ce journal a déjà un PDT de 51....
  • # Les distributions les plus trollesques

    Posté par  . Évalué à 1.

  • # C'est tout pourri...

    Posté par  (site web personnel) . Évalué à 5.

    Ca gère même pas le https :

    Par exmple ce journal est a 0 en https (https://linuxfr.org/~cho7/16730.html(...)) contre 71 en http (http://linuxfr.org/~cho7/16730.html(...)) (au moment ou je vous l'écrit)

    Moi j'veux bien contribuer mais seulement si ca respecte les standards :p et que c'est libre. Et comme c'est ecrit en Java je n'aurai qu'une chose a dire : JAVA CAPUECESTPASLIBRE :p
  • # record ?

    Posté par  . Évalué à 2.

  • # couleurs

    Posté par  . Évalué à 3.

    Bonjour,

    J'ai un probleme avec les couleurs de ce site (le rouge sur bleu scintille chez moi). Il manque un point virgule après le premier "white" dans la feuille de style. Est-il possible de changer de couleurs?
  • # Les sources

    Posté par  . Évalué à 4.

    Il est ouvert ce projet ? J'aimerais bien jeter un coup d'oeil dessus
  • # bookmarklet

    Posté par  . Évalué à 4.

    Marrant comme idée. Du coup je me suis fait une bookmarklet pour plus de confort, si ça intéresse qlq'un... :

    javascript:(function(){
    document.open();
    uri='http://www.myjavaserver.com/~cho7/result.jsp';
    f=document.createElement('form');
    f.method='get';
    f.action=uri;
    i0=document.createElement('input');
    i0.type='text';
    i0.name='txtUrl';
    i0.value='%s';
    f.appendChild(i0);
    b=document.createElement('body');
    b.appendChild(f);
    h=document.getElementsByTagName('html')[0];
    h.appendChild(b);
    f.submit();})()

    (enfin bien sûr faut virer tous les retours chariot, je les ai mis pour pas dégueuler à droite de la page)
    • [^] # Commentaire supprimé

      Posté par  . Évalué à 1.

      Ce commentaire a été supprimé par l’équipe de modération.

      • [^] # Re: bookmarklet

        Posté par  . Évalué à 2.

        Moi c'est effectivement en smarturl que je l'utilise, en lui donnant un petit nom ("troll" en l'occurence). Je m'en sert pour connaitre le score de la page que je consulte, en tapant "troll" dans la barre d'adresse devant son url. C'est effectivement pas très ergonomique, mais perso c'est toujours comme ça que je fais, disons que ça me suffit.
        Avec galeon, t'es de toute façon assez limité, le seul truc mieux auquel je peux penser serait d'avoir le code en simple url et d'y récupérer l'url de la page courante au lieu de la prendre en '%s'. Mais je sais pas comment on fait, j'suis une biquette en JS.
        Avec Firefox, y'aurait sûrement moyen de faire des trucs plus sexy encore, genre le coup du click droit proposé plus bas, mais alors là ça dépasse encore plus mes compétences.
  • # DoS ?

    Posté par  (site web personnel) . Évalué à 2.

    N'y a t'il pas un risque que ce genre de joujou fasse plier le serveur de linuxfr ?

    Puisque la cible est explicitement linuxfr, autant faire ça en statique et ne regénérer la page que périodiquement, non ?
    • [^] # Re: DoS ?

      Posté par  . Évalué à 0.

      oui sauf que Linuxfr est lui relativement dynamique et donc on tourne en rond.
  • # plugin

    Posté par  . Évalué à 1.

    Ca meritrai son plugin firefox, pour plus de confort, genre petit click droit sur un link avant ouverture et affichage du score :)
    • [^] # Re: plugin

      Posté par  . Évalué à 2.

      C'est typiquement ce à quoi sert le bookmarklet proposé plus haut, il me semble, non?
  • # myjavaserver

    Posté par  (site web personnel) . Évalué à 2.

    c'est bien myjavaserver ?

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.