Journal Scrapping de notes sur LinuxFR

Posté par  . Licence CC By‑SA.
Étiquettes :
11
1
déc.
2023

Gil Cot ✔ a dit :

Tiens, tu me rappelle un constat que je me suis fait mais que je n’ai pas encore pu vérifier rigoureusement : plus un journal est commenté et moins il est noté, et quand il l’est c’est alors négativement proportionnel aux commentaires…

Je me suis dit que j'allais tester l'ami ChatGPT pour voir si il pouvait me scrapper les notes, le nombre de commentaires, et mettre le tout sur un graph. Je l'ai laissé choisir le type de graph à utiliser et il a décidé lui même de la librairie (Chart.JS). Résultat (sur les 300 derniers journaux) :

https://journaux-adamhesim-96e388f73160b2361d46132579d60f9747ee1d5ff4d3.gitlab.io/

Je ne sais pas si ça corrobore l'affirmation de Gil Cot ✔, on a effectivement un journal très mal noté et très commenté mais les 4 journaux sur les 5 à 150 commentaires et plus sont positifs. Les points sont cliquables et le graph est zoomable (mais pas cliquer-glissable).

  • # pas corroboré

    Posté par  (Mastodon) . Évalué à 4. Dernière modification le 01 décembre 2023 à 19:48.

    Ma lecture est que l'affirmation de Gil n'est pas corroborée.

    Mais on a sans doute des règles possibles du style: un score négatif n'est jamais associé à une absence de commentaires.

    Surtout, ne pas tout prendre au sérieux !

    • [^] # Re: pas corroboré

      Posté par  . Évalué à 5.

      Intuition comme ça : le nombre de vote est corrélé avec le nombre de commentaires. Sauf que le score est un proxy moyen pour le vote vu qu’un journal à zéro peut être à zéro parce que pas de vote, ou alors avoir eu autant de pertinents qu’inutiles qui se sont annulés …

      Le nombre de journaux peu commentés semble largement concentré sur les journaux proche de zéro, et un journal avec peu de note sera forcément proche de zéro. Quand on s’éloigne de zéro les journaux se raréfient forcément, mais des valeurs plus extrêmes garantissent un engagement plus important, par le troll parfois c’est explicitement recherché, et les contenus peu commentés se raréfient.

      • [^] # Re: pas corroboré

        Posté par  (site web personnel, Mastodon) . Évalué à 2.

        Bien vu :

        Mais on a sans doute des règles possibles du style: un score négatif n'est jamais associé à une absence de commentaires.

        Bien vu aussi, même si je pense que pour le dernier cas ça fini souvent dans l’intervalle -3 à +3 :

        un journal à zéro peut être à zéro parce que pas de vote, ou alors avoir eu autant de pertinents qu’inutiles qui se sont annulés

        Je pense que c’est à cause de l’engagement que je me suis fait ma remarque initiale

        mais des valeurs plus extrêmes garantissent un engagement plus important, par le troll

        (je me serais attendu à ce que les gens n’alimentent pas la bête, d’où ma surprise de voir des ping-pong sur du contenu noté impertinent) :D

        “It is seldom that liberty of any kind is lost all at once.” ― David Hume

    • [^] # Re: pas corroboré

      Posté par  (site web personnel) . Évalué à 6.

      Mais on a sans doute des règles possibles du style: un score négatif n'est jamais associé à une absence de commentaires.

      Peut être aussi une règle genre : peu importe le score positif ou négatif, un journal a rarement un nombre négatif de commentaire.

      Adhérer à l'April, ça vous tente ?

      • [^] # Re: pas corroboré

        Posté par  (site web personnel, Mastodon) . Évalué à 2.

        Le SRNC est sur le sujet : la recherche de l’anti-journal …qui génère un nombre négatif de commentaires :p

        “It is seldom that liberty of any kind is lost all at once.” ― David Hume

      • [^] # Re: pas corroboré

        Posté par  (site web personnel) . Évalué à 4.

        Plus vicieux : des contenus et des commentaires peuvent disparaître sur des demandes de purge de compte. En général (tout le temps ?) les commentaires sont juste masqués (et vidés de leur titre/contenu/auteur en base) mais conservent donc leur score propre, le score du contenu et le nombre de commentaire. Par contre il est plus fréquent de retirer complètement un contenu et donc tous les commentaires associés, et c'est encore plus vrai si ledit contenu est de "mauvaise qualité" (pas trop de "scrupule" à supprimer un contenu noté négativement et sans commentaires pertinents par exemple). Si le contenu est de "bonne qualité", le contenu sera réécriture et/ou remplacé par un résumé, conservant score du contenu et le nombre de commentaires.
        Bref il peut y avoir un faible effet de biais du survivant (1 pour mille peut-être ?).

        Par contre il n'y a pas de contenus/commentaires ajoutés spontanément et postérieurement, avec évidemment une exception concernant la récupération d'anciennes dépêches pré 2000 perdues et retrouvées et remises en ligne (mais jamais sur d'autres types de contenu). Cf https://linuxfr.org/news/DOSEMU-0-99-9 par exemple

      • [^] # Re: pas corroboré

        Posté par  (site web personnel) . Évalué à 2.

        Pour être certain-es je propose de l'ajouter à la Charte : le nombre de commentaire ne peut jamais être négatif sous une publication ouverte à commentaires.

  • # Chiffre

    Posté par  . Évalué à 4.

    Je ne sais pas si ça corrobore l'affirmation de Gil Cot ✔

    En statistiques les graphiques ne sont pas tout. Il faudrait probablement retirer les valeurs aberrantes puis calculer des coefficients de corrélation pour avoir une idée moins subjective.

    https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll

    • [^] # Re: Chiffre

      Posté par  . Évalué à 2.

      Pour ajouter à la nuance de Barmic, je rajouterai un biais possible à ton raisonnement :

      4 journaux sur les 5 à 150 commentaires et plus sont positifs

      En fait ton graphique montre clairement qu'il y a bien plus de journaux notés positivement que négativement : si le ratio général est aussi de 4 journaux positifs pour 1 négatif (j'en sais rien), cela indiquerait juste qu'il ne semble pas y avoir de changement au-delà de 150 commentaires : ce n'est pas exactement cette observation qui te permettrait de conclure quant au "théorème de Gil Cot" ;)

      Néanmoins (sans être expert dans les statistiques), ton graphique semble montrer que la notation suit une loi normale centrée autour de 10-20, et probablement aussi pour ce qui est du nombre de commentaires (là je ne tenterais pas de valeur, mais visiblement assez faible) : si c'est effectivement le cas, on pourrait en déduire qu'il n'y a pas de grande loi entre note et nombre de commentaire.

      • [^] # Re: Chiffre

        Posté par  (site web personnel) . Évalué à 4.

        quant au "théorème de Gil Cot" ;)

        cela n'en est pour l'instant qu'au stade de l'hypothèse et au mieux d'une conjecture — cf. la définition 2.  ;-)

        • [^] # Re: Chiffre

          Posté par  (site web personnel, Mastodon) . Évalué à 2.

          Oui, simple hypothèse (doigt mouillé) :D J’aime réservé la conjecture pour quelque chose de plus fort (i.e. qu’on serait dans un « cadre » dans lequel voudrait s’inscrire une nouvelle « règle » vérifié/constatée mais non encore démontrée.)

          Tiens, me rappelle que dans certains milieux, des stats vérifiées sur un échantillon se comptant sur les doigts d’une main sont nommées « anecdotes » …Il se trouve que je vois sur le graphe qu’il y a des journaux que je n’avais pas vu passer :P

          “It is seldom that liberty of any kind is lost all at once.” ― David Hume

  • # Question

    Posté par  (site web personnel) . Évalué à 4.

    J’avais cru comprendre que l’ami chatGPT n’était pas très fiable question données quantitatives. Peut-on être certain que les données tracées correspondent bien à la réalité ?

    « IRAFURORBREVISESTANIMUMREGEQUINISIPARETIMPERAT » — Odes — Horace

    • [^] # Re: Question

      Posté par  . Évalué à 4. Dernière modification le 02 décembre 2023 à 19:16.

      Il est effectivement mauvais pour faire des calculs mais là il n'en a pas eu besoin. Juste générer le code de scrapping pour me sortir un JSON, puis générer celui du graphique. Et les score/nbcomments qu j'ai vérifiés correspondaient à la réalité.

      • [^] # Re: Question

        Posté par  (site web personnel, Mastodon) . Évalué à 4.

        Le lien sur le JSON a visiblement sauté…
        Question : Ce type de donnés n’aurait pas été bien juste en format délimité ?
        Sinon, j’ai oublié de le faire ailleurs : merci pour le graphe et le taf :)

        “It is seldom that liberty of any kind is lost all at once.” ― David Hume

        • [^] # Re: Question

          Posté par  (Mastodon) . Évalué à 4.

          Le lien sur le JSON a visiblement sauté…

          Corrigé, merci.

          En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.

        • [^] # Re: Question

          Posté par  . Évalué à 2. Dernière modification le 02 décembre 2023 à 23:31.

          Question : Ce type de donnés n’aurait pas été bien juste en format délimité ?

          L'avantage c'est qu'une librairie JS qui fait des graph peut directement exploiter le JSON. C'est un peu le format par défaut du web front : JavaScript Object Notation.
          Ne surtout pas me remercier, tu m'as surtout permis de m'amuser…

  • # Liens

    Posté par  (site web personnel) . Évalué à 3. Dernière modification le 03 décembre 2023 à 10:11.

    Au jugé je me suis fait aussi cette remarque, mais sur les Liens

    • [^] # Re: Liens

      Posté par  (site web personnel, Mastodon) . Évalué à 2.

      J’ai eu l’impression que le phénomène est plus accentué avec les liens. On attend le graphe pour visualiser la chose.

      “It is seldom that liberty of any kind is lost all at once.” ― David Hume

      • [^] # Re: Liens

        Posté par  . Évalué à 2.

        • [^] # Re: Liens

          Posté par  (site web personnel) . Évalué à 3.

          Bien que les échelles différent, doit-on comprendre en déchiffrant le graph (merci pour lui) qu'il y a plus de commentaires pour un contenu moins bien noté lorsque le contenu est un Lien plutôt qu'un journal, confirmant mon impression ?

          • [^] # Re: Liens

            Posté par  (site web personnel, Mastodon) . Évalué à 2.

            J’ai l’impression visuelle que c’est presque pareil sauf qu’il y a plus de passion dans les journaux et une certaine régularité dans les liens (plus normal centré au passage)

            “It is seldom that liberty of any kind is lost all at once.” ― David Hume

            • [^] # Re: Liens

              Posté par  . Évalué à 3.

              En dézoomant le graphe des liens, on peut aligner les axes des ordonnées. La seule chose que je peux en tirer c'est que l'engagement est bien supérieur pour les journaux et qu'il faut donc arrêter de poster des liens pour ensuite mettre le résumé en 1er commentaire ;-)
              Bon, les liens étant relativement récents il n'est pas impossible que l'engagement des liens rattrape celui des journaux. C'est même probable vu que Maderios et antistress ont décidé que c'était LA rubrique où poster.

              $ cat dlfp_liens.json | jq -r '.[].url' | awk -F'/' '{print $5}' | sort | uniq -c | sort -nr
              
              47 antistress
              31 maderios--2
              23 gilcot
              11 ysabeau
              11 colargol
              
              $ cat dlfp_journaux.json | jq -r '.[].url' | awk -F'/' '{print $5}' | sort | uniq -c | sort -nr
                   16 oumph
                   14 dascritch
              9 spacefox
              7 tisaac
              7 bookynette
              7 arodier
              6 ysabeau

              Sachant que https://linuxfr.org/users/oumph/ et https://linuxfr.org/users/dascritch publient les épisodes d'une série, ils sont un peu hors concours.

              • [^] # Re: Liens

                Posté par  (site web personnel, Mastodon) . Évalué à 2.

                Oups… /o\ Me voici affichée sur le podium de déposage sauvage de liens ; pourtant, promis, je me retiens de partager tout ce qui m’interpelle et il ne m’est pas ne pas venu deux secondes à l’esprit l’idée d’un hackers libristes news francophone :p

                “It is seldom that liberty of any kind is lost all at once.” ― David Hume

                • [^] # Re: Liens

                  Posté par  (site web personnel) . Évalué à 4.

                  et moi je n'étais pas pour les Liens quand ça a été lancé…

                  • [^] # Re: Liens

                    Posté par  (site web personnel, Mastodon) . Évalué à 2. Dernière modification le 05 décembre 2023 à 00:57.

                    C’est donc comme l’appétit ;D

                    “It is seldom that liberty of any kind is lost all at once.” ― David Hume

              • [^] # Re: Liens

                Posté par  (site web personnel) . Évalué à 3. Dernière modification le 05 décembre 2023 à 00:54.

                Merci, du coup je vois que le plus grand nb de commentaires est sur des journaux, mais aussi que tout est plus ramassé sur les Liens (note du Lien et nb de com).
                Mais la 1re remarque est selon moi anecdotique : par ex nb de journaux de 150 com ou plus : 5, soit peanut. Idem pour ceux entre 100 et 150 com : 6.

                Du coup, qu'est-ce qui te fait dire que :

                l'engagement est bien supérieur pour les journaux

                ?

                (vraie question, je ne suis pas à l'aise avec les graphiques comme ceux-ci)

                • [^] # Re: Liens

                  Posté par  . Évalué à 2.

                  Sur les 300 derniers de chaque catégorie on a
                  - 21 journaux avec un score >50 et 0 lien.
                  - 49 journaux avec +50 commentaires et 10 liens
                  - 8059 commentaires-journaux et 2715 commentaires-liens

                  Je m'y connais peu en statistiques, l'échantillon est sûrement faible, mais ça m'a l'air significatif.

                  (Là encore, c'est ChatGPT qui m'a donné les commandes jq pour obtenir tout ça… Faut vraiment faire gaffe avec ce truc c'est un coup à ne plus apprendre. OK il ne sait pas compter mais ça marche bien pour te donner les outils/commandes qui compteront correctement. Cela dit il me fait découvrir des techniques intéressantes, charge à l'utilisateur de ne pas s'arrêter à sa réponse et de creuser par lui-même. Un peu comme Wikipédia que j'utilise comme source de sources)

                  • [^] # Re: Liens

                    Posté par  (site web personnel) . Évalué à 3.

                    awé, ça fait quand même une différence !
                    Merci

                  • [^] # Re: Liens

                    Posté par  . Évalué à 4.

                    Ce serait intéressant de faire les stats de 2023 et 2022 par exemple vu que le rythme de post est pas le même et que les comportements peuvent évoluer. Comparer à période comparable permet potentiellement d'eviter une blague comme "les 300 derniers journaux sont postés sur deux ans, mais les liens sur un an, or le comportement des gens était pas pareil il y a deux ans cause COVID ou autre"

                    • [^] # Re: Liens

                      Posté par  . Évalué à 2.

                      2023 (à ce jour puisque l'année n'est pas terminée…) c'est 424 journaux et 1858 liens (5.5 liens par jour !)

                      Les 300 journaux du graph vont du 02 avr au 03 dec 2023 (246 jours)
                      Les 300 liens du graph vont du 03 oct au 03 dec 2023 (62 jours)

                      Refaire le graph sur des années entières ça va faire beaucoup de pages à scrapper… Je ne suis même pas sûr que ça soit autorisé par le site (?). D'ailleurs j'ai calculé ces derniers chiffres "à la main" en cherchant le 01 janvier dans les pages de chaque rubrique. Par contre toutes les données du lien du journal viennent donc des 8 derniers mois.

  • # précédemment

    Posté par  (site web personnel) . Évalué à 3.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.