Journal DLFP social network

Posté par  (site web personnel) .
2
1
nov.
2006
Dans un moment de désoeuvrement j'ai entrepris d'écrire de quoi générer un graphe des relations entre les utilisateurs de DLFP. Après quelques heures de travail, j'ai un truc qui donne des choses comme ceci :
http://ms800.montefiore.ulg.ac.be/~kunysz/dlfpers.8.png

Chaque flèche représente un certains nombre de réponses à des messages dans l'ordre "message parent -> réponse". Par exemple on peut voir que thoasm a répondu à huit messages de briaeros007. Ce graphe ce base sur 965 dépêches et journaux. Ne sont représentés que les liens d'au moins huit messages.

Je sais pas trop à quoi ça peut servir mais si vous voulez essayer il vous faudra WWW::Mechanize, HTML::Parser, graphviz et ces deux scripts :
http://www.krunch.be/vrac/qua/dlfpget.pl
http://www.krunch.be/vrac/qua/dlfpdot.pl

Le premier sert à récupérer les pages voulues tandis que le second les analyse.
$ ./dlfpget.pl 3 # nombre de pages à récupérer en argument
21546.html
21515.html
21534.html
$ ls *.html* | ~/prj/dlfp/dlfpdot.pl 1 > dlfpers.dot # "largeur" minimum des liens en argument
$ dot -Tpng -o dlfpers.png dlfpers.dot
dlfpget.pl ne récupère que les dépêches et journaux, il ne va pas chercher dans les forums mais l'adaptation est triviale à réaliser. Évitez aussi de demander trop de pages à dlfpget.pl si vous ne voulez pas DDoSer DLFP.

Par ailleurs, un projet similaire existe pour IRC : PieSpy. J'avais commencé un patch pour lui permettre d'analyser des logs hors ligne mais je sais plus ce que j'en ai fait (et javasaynul de toute façon).
http://www.jibble.org/piespy/
  • # ...

    Posté par  . Évalué à 8.

    Inutile donc indspensable *\o/*
  • # Et pour la tribune ?

    Posté par  (site web personnel) . Évalué à 3.

    Ce serait bien de pouvoir faire la meme chose avec la tribune.
    Je crois d'ailleurs qu'il y avait un truc qui faisait ca a une epoque ...

    Mais ca a pas duré longtemps.
    C'etait deporté sur un serveur distant qui tenait pas la charge si mes souvenirs sont bons.

    D'un autre coté, vu que certaines personnes archivent la tribune maintenant ca pourrait etre marrant ...
    • [^] # Re: Et pour la tribune ?

      Posté par  . Évalué à 3.

      C'est ça, LLG en avait fait un mais c'était sur un serveur qui ce vautrait régulièrement ce qui avait le bon goût de faire planter le compteur de preum's
  • # PasBill PasGates

    Posté par  (site web personnel) . Évalué à 4.

    Et bah, PbPg est encore une fois la star de Linuxfr !
  • # Des clans sur DLFP ??

    Posté par  . Évalué à 4.

    Il y a un truc qui saute aux yeux sur ton graphe
    Tu as deux gros clans sur linuxfr (MSUSA et TImaniac )
    Et qui en plus ne se parle pas...
    Il faudrait pousser ton étude pour voir si dans les trolls les membres de ces clans sont du même camp ou non. :)

    Bravo pour ton petit joujou...
    • [^] # Re: Des clans sur DLFP ??

      Posté par  (site web personnel) . Évalué à 10.

      bah moi je vois que LiNuCe parle tout seul !
      ...
      le pauvre !

      LiNuCe on t'aime :-*
      • [^] # Commentaire supprimé

        Posté par  . Évalué à 2.

        Ce commentaire a été supprimé par l’équipe de modération.

    • [^] # Re: Des clans sur DLFP ??

      Posté par  (site web personnel) . Évalué à 5.

      C'est pas une question de "camp", c'est juste que globalement pBpG et moi avons un point commun : on aime pas les affirmations gratuites FUD et autres dénigrements sans fondement des produits "concurrents" à Linux. Ca explique assez logiquement qu'on est souvent d'accord, et qu'on trouve rien à se "re"dire, enfin c'est le cas pour ma part :) (Faudrait pouvoir faire un graphe des pertinentages, mais les données ne sont pas dispo).
      Ca explique aussi assez logiquement qu'on engendre un certain nombre de troll et qu'on se retrouve "au milieu" vu le site sur lequel on est.
  • # Moi ça me fait peur ce genre de script.

    Posté par  . Évalué à 3.

    Suis-je le seul ?

    Sur la toile, les acteurs du web (nous) laissent tes traces minuscules, toutes insignifiantes.

    Mais des gens s'amusent à analyser ces traces et visiblement en sortent une synthèse qui contient des informations peut être pertinentes que ces acteur n'ont jamais voulu diffuser.

    Aller, je retourne désactiver les cookies.
    • [^] # Re: Moi ça me fait peur ce genre de script.

      Posté par  (site web personnel) . Évalué à 6.

      Euh ....
      Je crois effectivement qu'a ce point là, tu as quand meme pas mal de soucis a te faire.

      Premièrement, tu sais que pour commenter les news, il faut avoir un compte.
      Deuxièmement, tu te plains que l'on puisse lire tes commentaires et en faire une synthèse.
      Bizarre....

      Surtout que google fait ca aussi tres bien sur linuxfr.
      Par exemple, je te propose une recherche anodine : "gateau yahourt micro onde".
      Et ben paf : Premier lien : "Journal de Ragnagna: J'ai découvert le micro-onde...."

      Je ne comprend pas trop, tu n'assumes pas ce que tu dis ?
      • [^] # Re: Moi ça me fait peur ce genre de script.

        Posté par  . Évalué à 5.

        Non, il veut peut-être dire qu'à partir de quelques infos insignifiantes laissées ça-et-là, on peut arriver à en tirer d'autres données, qui pourraient être croisées avec d'autres, etc... Et finir par apprendre pas mal de choses sur des gens qui ne l'imaginent même pas.
  • # Génial !

    Posté par  (site web personnel, Mastodon) . Évalué à 4.

    Vraiment excellent !

    Je pense adapter le machin pour faire un truc que j'ai envie de faire depuis quelques temps : l'analyse des réseaux des blogrolls sur les blogs dotclear.

    Le principe serait de prendre un blog dotclear de départ et puis d'analyser récursivement les blogs dotclear qui sont dans sa blogroll. (je parie que le standblog se trouvera bien au centre)

    Tout à fait inutile mais j'avais juste envie de le faire et je crois que ça doit être relativement simple d'adapter ton script.

    Merci en tout cas :-)

    Mes livres CC By-SA : https://ploum.net/livres.html

    • [^] # Re: Génial !

      Posté par  (site web personnel) . Évalué à 5.

      Au passage, c'est ce genre d'algos qui est utilisé par les moteurs de recherches. Le web est juste un énorme graph ;-).
    • [^] # Re: Génial !

      Posté par  . Évalué à 3.

      Une tentative dans ce sens avait ete faite pour savoir quels auteurs lisent quels blogs. "testing meme propagation in blogspace"

      http://www.google.fr/search?hl=fr&q=testing+meme+propaga(...)

      Le souci, c'est que ca se faisait sur trackbacks. Et j'ai l'impression que les spammeurs ont sauté sur celui-là. A tel point que la moitie des commentaires a spam arrivaient sur mon billet relatif a ce testing meme propagation. J'y ai desactivé commentaires et trackbacks, et en une semaine ca a reduit mon spam de 75%.


      A noter que le genre de techniques que tu penses utiliser dans un but tout a fait louable est aussi celui utilisé apparemment par les crawlers de spam (et les moteurs de recherche). Pour s'en convaincre : cree un blog, sans blogroll, aucun lien vers d'autres blogs, desactivation systematique des trackbacks, et lien dans les commentaires supprimé. Tu verras, tu ne recevras quasiment aucun spam.

      Par contre l'idee de parcourir la blogosphere pour faire une carte des blogrolls pourrait etre vachement fun :)
    • [^] # Re: Génial !

      Posté par  (site web personnel) . Évalué à 3.

      Mon script n'est pas vraiment adapté pour analyser de cette manière mais il devrait être assez facile d'en réécrire en utilisant les mêmes outils pour faire ce que tu veux.

      pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.

  • # Private Joke

    Posté par  . Évalué à 3.

    C'est bien tout ça, mais où est ploum ?
  • # bug ?

    Posté par  (site web personnel) . Évalué à 3.

    Le fait que MSUSA se soit répondu 16 fois à lui-même me semble suspect...
    • [^] # Re: bug ?

      Posté par  (site web personnel) . Évalué à 3.

      Si tu veux vérifier, les URLs des pages sur lesquels se basent ces graphes sont listés ici : http://ms800.montefiore.ulg.ac.be/~kunysz/dlfp/dlfp.urls.gz

      pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.

      • [^] # Re: bug ?

        Posté par  (site web personnel) . Évalué à 3.

        Bon et tant que j'y suis, voilà le graphe global :
        http://ms800.montefiore.ulg.ac.be/~kunysz/dlfp/dlfpers.1.dot

        C'est sans doute pas la peine d'essayer de générer l'image correspondante (23434 liens ça fait beaucoup quand même) mais vous pouvez retrouver un graphe limité à ce que vous voulez à coups de grep/awk/perl/...

        Faudrait que j'en refasse un avec plus de pages.

        pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.

      • [^] # Re: bug ?

        Posté par  (site web personnel) . Évalué à 3.

        Ouais mais bon me filer le tas d'URLs ne m'avance pas à grand chose.. tu peux raffiner avec les URLs contenant uniquement des auto-réponses de MSUSA ?
    • [^] # Re: bug ?

      Posté par  . Évalué à 1.

      A une époque ( ou le vote ne s'effectuer que sur des post anonymisé ) c'était une technique courante sur /. pour augmenter son Karma. L'on poster un commentaire et l'on jouer son propre détracteur, avec un peut de chance et de talent l'on récupérer les votes des pours et des contres.

      J'avoue avoir utiliser cette technique il y a pas mal de temps avec un certains succès, sans que grand monde ne s'en rend compte.

      Cela tant a prouver deux choses:
      - Les contributeurs quand ils font attention a l'auteur, n'ont pas de vision global de ses contributions et ne remarque pas les incohérence de celle-ci.
      - Le votes positifs sont supérieur en nombre aux votes négatifs.
      • [^] # Re: bug ?

        Posté par  (site web personnel, Mastodon) . Évalué à 6.

        moi j'avoue que sur un site comme Linuxfr où il n'y a pas d'avatar, je ne sais jamais à qui je répond et je n'ai aucune idée des "personnalités".

        ça m'est déjà arrivé de me répondre à moi-même sans m'en rendre compte de suite, c'est pour tout dire...

        Mes livres CC By-SA : https://ploum.net/livres.html

        • [^] # Re: bug ?

          Posté par  (site web personnel) . Évalué à 4.

          • [^] # Re: bug ?

            Posté par  (site web personnel, Mastodon) . Évalué à 8.

            ouais, sauf que moi c'était pour un problème. Je cherchais et je tombe sur un gars qui a le même problème.

            Du coup je poste : "j'ai exactement le même problème, tu sais me tenir au courant si tu as une solution ?"

            Et évidemment, le gars en question, c'était moi.

            Le bide quoi...

            Mes livres CC By-SA : https://ploum.net/livres.html

            • [^] # Re: bug ?

              Posté par  (site web personnel) . Évalué à 3.

              > ouais, ça m'est arrivé plus d'une fois. Je lis un message et je me
              > dis : "tain, ce type a exactement le même problème que moi. Marrant."
              > Puis en regardant .. ah merde, c'est moi.
              > ça m'est même une fois arrivé de me répondre dans un de mes journaux
              > linuxfr en disant "J'ai le même problème que toi. Tiens nous au
              > courant si tu trouves une solution"
              > Le bide absolu...
              une fois j'ai même failli me répondre par : RTFM
              -- ploum et ze Fripouille Jack sur DLFP(#528790)
              https://linuxfr.org/comments/528790.html#528790

              pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.

              • [^] # Re: bug ?

                Posté par  (site web personnel, Mastodon) . Évalué à 3.

                arf, au moins je suis constant vis-à-vis de ce que je dis...

                Mes livres CC By-SA : https://ploum.net/livres.html

            • [^] # Re: bug ?

              Posté par  . Évalué à 3.

              Et t'as eu une réponse ?
      • [^] # Re: bug ?

        Posté par  (site web personnel) . Évalué à 10.

        C'est bizarre que ça ait fonctionné dans ton cas, parce que sans même regarder le pseudo, à l'orthographe on te reconnaît tout de suite.
        • [^] # Re: bug ?

          Posté par  . Évalué à 2.

          Je t'avouerais que j'en étais le premier étonné. Surtout quand l'on voit mon orthographe d'il y a quelques années.
  • # Analyse..

    Posté par  (site web personnel) . Évalué à 2.

    J'ai testé le script sur 2177 pages de linuxfr. J'ai filtré selon la limite de 4 commentaires ( ici : http://sebastien.dailly.free.fr/images/linuxfr/dlfpers-4-217(...) ) et 6 commentaires ( http://sebastien.dailly.free.fr/images/linuxfr/dlfpers-6-217(...) ).
    Ce que j'en tire : parmi les personnes qui répondent, on constate que la majorité des personnes sont "prises" dans le réseau, le nombre d'individus qui se trouvent en dehors, soit en ne répondant à personne, soit parce que personne ne leur répond est très rare. Au niveau du réseau en lui même, il reste assez confus, mais on constate quelques points de convergences. ( Il faudrait relever les noms et voir de quelle manière ils influent sur le site pour plus de précision. )
    Je trouve que cela montre bien que linuxfr est une "communauté" d'utilisateurs, formée autour de linux, et ce que les autres commentaires revèlent n'est pas anodin : peur que cette communauté se transforme en clans, reconnaissance des individus qui font tourner le site... Les réactions des linuxfriens sont autant révélatrice que le graphique en lui même :) !
    • [^] # Re: Analyse..

      Posté par  . Évalué à 2.

      @Yusei : je crois que c'est la faute à Ruby si nous apparaissons proches ;o)

      Limiter le nombre de commentaires permet d'éclaircir le graphe mais cela crée un effet de bord : cela cache l'activité de ceux qui répondent à beaucoup. P.ex., si A ne poste que 7 messages, mais tous à B, il apparaît dans le groupe de B ; par contre, si C poste 40 messages, mais pas plus de 3 par personne, il apparaît isolé. Or C relie en fait les environ 40/3 personnes auxquelles il a répondu.
      Je ne vois pas trop comment on peut faire ressortir cet aspect.
    • [^] # Re: Analyse..

      Posté par  (site web personnel) . Évalué à 2.

      Moi qui suis un lecteur assidu depuis longtemps, mais qui contribue peu, je n'apparais presque pas. De rage, je poste ce commentaire pour exister.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.