Statistiques 2018 du site LinuxFr.org

Posté par (page perso) . Édité par Davy Defaud, palm123, Julien Jorge et ZeroHeure. Modéré par Julien Jorge. Licence CC by-sa.
37
6
jan.
2019
LinuxFr.org

En ce début d’année 2019, commençons par deux marronniers de saison : d’abord, bonne année à tous, meilleurs vœux, écrivez de belles dépêches en 2019, partagez et contribuez. Et ensuite, un petit regard en arrière sur les douze mois d’activité de LinuxFr.org en 2018 : quelles évolutions en termes de trafic Web, de contenus créés, de commentaires déposés, de navigateurs utilisés, d’utilisation des fonctionnalités du site, de contribution au code, etc. Bref, qu’est‐ce qui a changé et comment durant 2018 ?

Le site rend accessible un grand nombre de statistiques (faites‐vous plaisir si vous souhaitez vous plonger dedans, c’est fait pour) ; cette dépêche résume les variations constatées en 2018.

Sommaire

Statistiques Web

La comparaison des statistiques annuelles (voir 2017 et 2018) montre la fin du comportement un poil bourrin d’un (ou plusieurs) yacybot apparus en 2017 et calmés en 2018 par des limitations imposées côté serveur. D’où un retour à un niveau plus habituel de ~900 000 hits par jour (en légère hausse, néanmoins), de ~1,1 Tio par mois (en légère hausse en fin d’année, néanmoins) et à environ 45 000 à 50 000 visites par jour ;

Stats Web 2018

Un changement notable cette année : le nombre de contenus publiés en un an remonte, même si le nombre de commentaires publiés diminue.

Contenus

Au 31 décembre 2018, le site comportait environ 102 340 contenus répartis ainsi :

  • 25 364 dépêches publiées :
    • 475 dépêches publiées en 2018 (nette amélioration de 10 % par rapport à 2017, qui était le niveau le plus bas, en très nette baisse),
    • la taille moyenne (en code Markdown, hors images donc) des dépêches a encore augmenté de 4 % (une partie de l’explication vient des dépêches hebdomadaires tirées de l’Agenda du Libre) ;
  • 37 601 journaux (plutôt stable avec -1 % de publications par rapport à 2017) ;
  • 36 654 entrées de forum (nette baisse avec -23 % de publications par rapport à 2017) ;
  • 408 sondages (dix‐sept publiés dans l’année, soit trois de plus qu’en 2017) ;
  • 130 pages de wiki (une vingtaine de tutoriels publiés en 2018) ;
  • 369 liens, le nouveau type de contenus apparus en mars 2018.

Le pic de publication des contenus reste le mercredi (talonné par le mardi) sur l’ensemble des contenus (mais on note une différence entre les contenus modérés a priori et les autres, voir la partie Modération plus bas). Un jour de semaine compte 70 % de publications en plus qu’un jour de week‐end (chiffre stable par rapport à 2017).

La publication sous licence Creative Commons By-SA se fait par défaut depuis les dix ans de CC, fin 2012 pour les dépêches (permet explicitement une rédaction collaborative ou un renvoi en re‐rédaction) et les journaux (qui peuvent être convertis en dépêche) : tout naturellement, on retrouve 97 % de dépêches et 96 % des journaux sous cette licence au final (les autres étant notamment sous licence Art Libre ou autres, au choix de l’auteur). Les dépêches collaboratives sont toujours aussi nombreuses sur de multiples sujets, vraies réussites du site ; nous sommes cependant toujours à la recherche de volontaires pour couvrir les nombreux sujets qui n’ont pu être abordés. Une liste des thèmes récurrents sur LinuxFr.org peut donner des idées de participation : si une dépêche n’a pas été créée dans les temps, tout inscrit peut la démarrer dans l’espace de rédaction.

Modération

Le temps moyen passé entre la création d’une dépêche (en rédaction ou directement envoyée en modération) et sa modération et publication est de 1 007 heures (contre 297 h en 2016 et 696 h en 2017) ; la mesure du temps passé uniquement en modération n’est pas actuellement disponible (et la modération retient volontairement des dépêches non urgentes pour réguler la publication) ; le temps médian est de 15 heures (contre 17 h en 2016 et 20 h en 2017). Il y a des demandes de statistiques dans le suivi, envoyez les demandes d’intégration Git (pull‐requests). ;-)

Le jour de modération a priori des contenus est le mardi pour les dépêches et le lundi pour les sondages.

Les nombres d’interdictions de tribune et d’interdictions de poster des commentaires (pour une durée de un ou deux jours, une semaine ou un mois) sont en augmentation, mais restent très faibles à l’échelle du site (respectivement 21 et 35 fois), utilisées surtout comme restrictions immédiates sur les spammeurs, en attendant la purge du compte fautif par un admin.

Commentaires

Au 31 décembre 2018, le site comporte 1,74 million de commentaires. Le nombre de commentaires par an est en baisse de 15 % (pour la 6e année consécutive) pour arriver à 32 619.

Il y a désormais, en moyenne, 29 commentaires par journal (36 précédemment en 2017, 23 depuis l’origine du site), 15 par dépêches (17 précédemment et 24 depuis l’origine), 40 par sondage (40 précédemment, mais très dépendant des sondages considérés ; 72 depuis l’origine), 7 par entrée de forum (2 précédemment et 5 depuis l’origine), 4 par entrée de suivi (3 depuis l’origine), 3 par lien et une poignée par page wiki.

Le jour préféré pour commenter reste le mercredi, et un jour de semaine compte deux fois plus de commentaires qu’un jour de week‐end.

Notes

Il n’y a (toujours) pas de statistiques disponibles concernant les notes. Les entrées de suivi sur les statistiques ont trop peu avancé en 2018.

Étiquettes (tags)

  • 11 735 étiquettes, dont 11 415 étiquettes publiques ;
  • 92 735 saisies d’étiquettes (étiquetées en moyenne huit fois pour les étiquettes publiques et dix fois pour les étiquettes privées) ;
  • les étiquettes sont réparties ainsi par contenu :
    • 46 900 pour les dépêches,
    • 29 600 pour les journaux,
    • 13 900 pour les forums,
    • 1 150 pour les liens,
    • 650 pour les pages wiki,
    • 260 pour les sondages,
    • 250 pour le système de suivi des défauts et évolutions.

Depuis le début du site, on constate en moyenne 5 étiquettes par page wiki, 3 par lien, 1,9 par dépêche, 0,8 par journal, 0,7 par sondage, 0,4 par entrée de forum et 0,1 par entrée du suivi.

On peut aussi noter une autre particularité : le jour où le plus d’étiquettes sont apposées est le lundi (et non le milieu de semaine, qui est le pic de publication des contenus et des commentaires).

Équipe de bénévoles

Il y a actuellement 7 admins Web/système, 11 modérateurs (+1, bienvenue à Julien Jorge) et 7 animateurs de l’espace de rédaction qui font tourner ce site (un admin et un animateur de moins, merci à eux pour le travail accompli). Pour mémoire, il s’agit de bénévoles plus ou moins disponibles et donc absolument pas de 24 équivalents temps plein pour jargonner comme une entreprise.

Code et développement

Au 31 décembre 2018, le système de suivi de défauts et de demandes d’évolutions contient 142 entrées (contre 223 en 2017). On voit assez rapidement un manque de développeurs apparaître. En 2018, il y a eu 69 entrées ouvertes (contre 87 en 2017) : 28 entrées encore ouvertes venant s’ajouter à celles datant d’avant, 26 corrigées et 15 déclarées invalides). On peut noter que ceux qui ouvrent le plus d’entrées sont des membres actuels ou anciens de l’équipe du site.

C’est Bruno qui, de loin, a corrigé le plus d’entrées. Le temps moyen de résolution est de 112 jours (contre 91 précédemment), encore en hausse. La moitié des entrées fermées ont été traitées en moins de sept jours. On ressent donc toujours un besoin de nouveaux contributeurs côté code.

La charge moyenne sur le serveur est de 1,8 (contre 1,9 en 2017) sur la machine actuelle (baptisée gruik). La charge minimale a été de 1,0 et la maximale de 3,6.

La consommation mémoire est stable sur la partie de l’année sur laquelle ces statistiques existent. Le trafic réseau sur la partie Web est en moyenne de 5,6 Mbit/s sortants (contre 8,2 précédemment) pour 535 kbit/s entrants (contre 520 précédemment), avec des pics à deux fois ces valeurs). Le trafic réseau total est en moyenne de 7,1 Mbit/s sortants (contre 9,7 précédemment) pour 590 kbit/s entrants (=), avec des pics à 14 Mbit/s sortants.

Comptes utilisateur

Au 31 décembre 2018, sur les 47 990 comptes utilisateur valides existants, 2 750 ont été utilisés au cours des trois derniers mois, dont 33 % (-1 point) ont déjà rédigé des dépêches, 38 % (=) des journaux, 38 % (-1 point) des entrées de forums, 10 % (=) des entrées dans le système de suivi ; 79 % (-2 points) ont écrit des commentaires et 42 % étiqueté des contenus (+1 point) ; 25 % (-1 point) des comptes actifs ont indiqué un site personnel, 11 % (=) un identifiant XMPP, 23 % (-1 point) un avatar et 5 % une signature.

Côté utilisation des fonctionnalités, 3 % ont demandé à ne pas voir les signatures, 5 % à ne pas voir les avatars et 8 % avec le tri chronologique en page d’accueil (chiffres stables) et à peine quelques pourcents ont changé les contenus par défaut en page d’accueil (souvent pour retirer les sondages et ajouter les journaux). Peu de feuilles de style CSS du site sont utilisées : presque quatre visiteurs sur cinq utilisent celle par défaut ; il est facile d’en changer avec le lien Changer de style.

Une douzaine de comptes ont un karma négatif, soit 0 % des visiteurs actifs ; 18 % des comptes actifs durant les trois derniers mois ont été créés en 2018.

36 % des visiteurs actifs ont une adresse de courriel GMail, 12 % chez Free, 4 % chez Yahoo, 4 % chez Hotmail ou Outlook, 3 % chez LaPoste et 2 % chez Orange ou Wanadoo.

Soucis divers

Le compteur d’années sans mises en demeure reçues s’est incrémenté (passant à 1, donc).

/ Only two formals notice in the default \
\ install, in a heck of a long time!     /
 ----------------------------------------
   \
    \
        .--.            / Ouep...  \
       |o_o |           \ Euh coin /
       |:_/ |            ----------
      //   \ \              \ 
     (|     | )               \
    /'\_   _/`\                \ >()_
    \___)=(___/                   (__)__ _

Depuis la création du site, statistiques liées au légal (dans les sens liés à la force publique ou à du juridique) :

  • deux mises en demeure reçues (pour zéro assignation) ;
  • une réquisition judiciaire reçue (qui au final ne nous concernait pas, mais a donné l’occasion de discuter avec la police nationale) ;
  • un cas d’usurpation d’identité et de harcèlement type « revenge porn » (discussion avec la gendarmerie nationale).

Test d’autres solutions de statistiques que Webalizer

Une entrée dans le suivi (de 2010) concernait le test d’une autre solution des stats Web (depuis 2010). Une dépêche avait été amorcée en janvier 2017 sur le sujet mais n’avait pas été terminée. Voici donc un test de solutions de statistiques Web (Debian Stretch) sur un an de journaux système (l’année 2017) traité (environ 5 Gio de access.log.xz, à décompresser et traiter).

Les solutions d’analytique sont appelées depuis la page Web, elles tracent en temps réel le visiteur avec des cookies pour suivre de façon très fine son parcours dans le site. On les utilise par exemple sur des objectifs déterminés de parcours visiteur ou de référencement, dont elles mesurent l’efficacité.
L’analyse des journaux système intervient a posteriori.

  • les solutions basées sur du code dans les pages (probablement pas la solution idéale pour nous en raison de l’injection de JavaScript, indépendamment de la richesse des fonctionnalités) :
    • Open Web Analytics (GPL) : PHP/MySQL, nécessite d’être appelé depuis du JavaScript (ou du PHP, mais on n’en a pas sur le site…) ; non empaqueté Debian,
    • Matomo (anciennement Piwik) (GPL) : PHP/MySQL, nécessite d’être appelé depuis du JavaScript (ou via Ruby-Rack) ; non empaqueté Debian, mais projet actif,
    • etc. ;
  • les solutions basées sur les journaux système :
    • Webalizer 2.23.08-1+b3 (GPL) : écrit en C, traite un an de journaux en moins de 2 h 30, le résultat est celui déjà connu car c’est la solution actuelle ; la version date de 2013 (hors correctifs Debian) et n’est plus maintenue, il existe des forks comme Webalizer Xtended (dernière version en 2014) ou Stone Steps Webalizer (dernière version en 2015),
    • Analog 6.0-22 (GPL) : écrit en C ; vu que le projet d’origine a perdu son domaine (remplacé par une communauté), que les échanges sont réduits à une liste de diffusion qui semble peu active, qu’il n’y a pas de nouvelle version depuis 2015 et que le paquet Debian est orphelin, ça ne donne pas forcément envie de tester,
    • Awstats 7.6+dfsg-1 (GPL) : écrit en Perl, dernière version le 7 janvier 2018 ; paquet Debian orphelin (mais il vient de recevoir un correctif sécu chez Ubuntu et Debian) ; il traite un an de journaux en 13 h 40 (sans résolution DNS),
    • Matomo : permet aussi d’importer des données depuis des journaux d’un serveur HTTP plutôt que d’utiliser du JavaScript (le test avait échoué début 2017 et serait à refaire),
    • GoAccess : écrit aussi en C, le projet a maintenant plus de huit ans (premier commit sur GitHub le 9 juillet 2010) et reste maintenu (la version 1.3 date de novembre 2018),

Awstats

  • une visite Awstats correspond à une adresse IP accédant à quatre pages différentes durant une heure ;
  • une visite Webalizer est comptée comme le retour d’une même adresse IP après un certain temps, 10 min pour LinuxFr.org ;
  • Webalizer annonce 22,6 Tio téléchargés, 18,5 millions de visites, 137 millions de pages, 445 millions de fichiers et 529 millions de hits ;
  • Awstats annonce 8,2 Tio téléchargés, 3,8 millions de visiteurs différents, 12,3 millions de visites, 90,3 millions de pages et 208 millions de hits de trafic vu (hors robots), et 13,3 Tio téléchargés, 291 millions de pages et 302,5 millions de hits de trafic non vu ;
  • Awstats nous apprend aussi que :
    • les images PNG+SVG font 40 % des hits et 4,8 % du volume, les flux Atom font 80 % du volume pour 28,2 % des hits, CSS, JavaScript et EPUB font chacun moins de 3 % en volume et hits. Enfin les pages Web (XML) font 9,3 % des hits et 2,1 % du volume (stat absente côté Webalizer),
    • les pages les plus téléchargées sont sans surprise : /news.atom, /journaux.atom, /, /journaux, /forums.atom, /news, /sondages.atom, /forums et /board,
    • le système d’exploitation utilisé est GNU/Linux pour 40 % des pages, inconnu (?) pour 38 %, Windows pour 18 % et macOS pour 4 %,
    • que le navigateur est inconnu (?) pour 36 % des pages, Firefox pour 29 %, Google Chrome pour 25 %, et que Liferea, Safari, MS Internet Explorer et Opera ont chacun 1 ou 2 %.

Dans les choses toujours à dire et à faire

Il y a encore bien d’autres choses à dire et à faire concernant les statistiques du site, notamment des statistiques supplémentaires demandées par mjourdan dans le cadre de l’amélioration de l’expérience utilisateur sur le site ou les entrées de suivi concernant les statistiques.

Aller plus loin

  • # Un immense merci à chacun !

    Posté par . Évalué à 10.

    :-)

  • # précisions

    Posté par . Évalué à 1.

    Matomo (anciennement Piwik) (GPL) : PHP/MySQL, nécessite d'être appelé depuis du JavaScript (ou via Ruby-Rack). Non empaqueté Debian. Projet actif ;

    Matamo/Piwik est capable d'analyser les logs sans problème via un simple cron. C'est ce qui a permit la création de ce journal entre autre.

    130 pages de wiki (une vingtaine de tutoriels publiés) ;

    130 pages de wiki (une vingtaine de tutoriels publiés en 2018) ; 😙
    A vue de nez, on dépasse la quarantaine de tutos dans le wiki.

    🇪🇺

    • [^] # Re: précisions

      Posté par (page perso) . Évalué à 4.

      Matamo/Piwik est capable d'analyser les logs sans problème via un simple cron.

      Déjà évoqué dans la dépêche, où Matomo est évoqué dans deux catégories.

      130 pages de wiki (une vingtaine de tutoriels publiés en 2018) ; 😙

      Précision ajoutée.

  • # Toute petite coquille, une coquillette quoi :o)

    Posté par . Évalué à 4. Dernière modification le 06/01/19 à 19:34.

    Super bravo !!! Toujours passionnant à lire !

    Yop, dans la section « Comptes utilisateur », une parenthèse ouvrante n'est pas fermée et du coup c'est un peu moins facile à lire : « … trois derniers mois (33 % (-1 point) ont … ».

    Avec tous mes encouragements <3

  • # Adresses de courriel

    Posté par . Évalué à 5. Dernière modification le 06/01/19 à 21:59.

    36 % des visiteurs actifs ont une adresse de courriel GMail, 12 % chez Free, 4 % chez Yahoo, 4 % chez Hotmail ou Outlook, 3 % chez LaPoste et 2 % chez Orange ou Wanadoo.

    Argh, dans les bonnes résolutions 2019, va falloir que les gens ajoutent « se trouver un hébergeur de courriel respectueux de ma correspondance et de celle de mes interlocuteurs… »

    • [^] # Re: Adresses de courriel

      Posté par . Évalué à 7.

      On en déduit tout de même que 61% des utilisateurs ne sont ni chez GMail, ni chez Free, ni chez Yahoo… je suis étonné d'un tel chiffre.

      Bon, je suis chez GMail, va falloir que ça change… mais c'est ma bonne résolution depuis 5 ans au moins :(

      En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.

      • [^] # Re: Adresses de courriel

        Posté par . Évalué à 2. Dernière modification le 07/01/19 à 19:54.

        On en déduit tout de même que 61% des utilisateurs ne sont ni chez GMail, ni chez Free, ni chez Yahoo… je suis étonné d'un tel chiffre.

        61% ?
        36% Gmail + 12% Free + 4% Yahoo = 52%
        Donc plus de la moitié des utilisateurs ont une adresse mail chez l'un de ces trois fournisseurs.
        Ou alors j'ai loupé un truc.

  • # OS et navigateur inconnu.

    Posté par (page perso) . Évalué à 2.

    Sans doute un petit pourcentage de gens qui cachent ces infos, et un gros pourcentage d'utilisateurs sur mobile.

    • [^] # Re: OS et navigateur inconnu.

      Posté par . Évalué à 1. Dernière modification le 07/01/19 à 02:48.

      Ou des bots tout simplement, voir aussi des lecteurs de flux RSS/Atom.
      Les mobiles ont des user-agents très parlant ;)

      🇪🇺

      • [^] # Re: OS et navigateur inconnu.

        Posté par (page perso) . Évalué à 3.

        Justement, c'est parlant mais ça n'apparaît pas sur les stats (en tout cas l'année dernière, je ne suis pas allé voir le détail cette année).

  • # Merci !

    Posté par . Évalué à 1.

    Merci pour le travail fournit !
    LFR reste pour moi une excellente source d'information et de débats.

    • [^] # Re: Merci !

      Posté par . Évalué à -4. Dernière modification le 15/01/19 à 14:50.

      LFR ?? T'adressant à Benoït Sibaud (webmestre du site) qui utilise toujours l'expression Linuxfr.org (1), cet abus de langage est… maladroit ;)

      (1) précisément avec cette typographie (en détail : première lettre en majuscule, nom complet avec l'extension du nom de domaine, en italique). Il y en a 3 occurrences dans cette dépêche (on sait jamais, ça peut servir à faire des statistiques… non, pas tapaÿ), plus 2 qui ne peuvent techniquement pas être en italique, dans l'implémentation actuelle du site, l'une parce qu'elle est dans le titre, l'autre parce qu'elle est dans la section « Aller plus loin » qui comprend des liens normalisés.

      Il y a des blessés ? Permettez que je sorte ----> [ ]

  • # Commentaire supprimé

    Posté par . Évalué à -1. Dernière modification le 30/01/19 à 20:09.

    Ce commentaire a été supprimé par l'équipe de modération.

    • [^] # spam

      Posté par (page perso) . Évalué à 2. Dernière modification le 30/01/19 à 14:59.

      sympa ton spam :D

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.