Statistiques 2017 du site LinuxFr.org (1/2)

Posté par (page perso) . Édité par Davy Defaud, BAud, ff9097 et Nÿco. Modéré par Xavier Claude. Licence CC by-sa.
33
8
jan.
2018
LinuxFr.org

En ce début d’année 2018, commençons par un petit regard en arrière sur les douze mois d’activité de LinuxFr.org en 2017 : quelles évolutions en termes de trafic Web, de contenus créés, de commentaires déposés, de navigateurs utilisés, d’utilisation des fonctionnalités du site, de contribution au code, etc. Bref : qu’est‐ce qui a changé et comment durant 2017 ?

Le site rend accessible un grand nombre de statistiques (faites‐vous plaisir si vous souhaitez vous plonger dedans, c’est fait pour) ; cette dépêche résume les variations constatées en 2017.

Sommaire

Statistiques Web

La comparaison des statistiques annuelles (voir 2016 et 2017) montre :

  • globalement des chiffres plutôt à la hausse sur l’année ; au final, toujours en hausse (+ 66 %) en volume (Kio), pour plus de visites (+ 15 %) et de pages servies (+ 4 %) ; une visite est comptée comme le retour d’une même adresse IP après un certain temps, 10 min pour LinuxFr.org (les clients RSS/Atom et autres bots qui reviennent plus régulièrement abaissent donc le chiffre) ;
  • côté navigateurs (sur les mois de décembre), on constate que :
    • les moteurs de recherche classiques sont toujours aussi présents, mais les moteurs de recherche en P2P ont fait une entrée en force (YaCy représente 10 % des requêtes, et un autre bot en Java abuse carrément en représentant 40 % des requêtes — et ce n’est malheureusement pas la première fois, après plusieurs blocages d’adresses IP),
    • il n’y a plus de MSIE (Internet Explorer) présent dans le classement… et heureusement, vu que même Microsoft a abandonné Internet Explorer ! ;-),
    • toujours de nombreux lecteurs RSS/Atom, des coincoins et autres bots. Stats Web 2017

Mais la suite va nous montrer que, cette année encore, s’il y a plus de visiteurs, il y a moins de contributeurs. Plus de lecteurs consommateurs de contenus et moins de visiteurs contributeurs, depuis plusieurs années, la tendance n’est pas rassurante.

Contenus

Au 31 décembre 2017, le site comportait environ 99 940 contenus répartis ainsi :

  • 24 890 dépêches publiées :
    • 431 dépêches publiées en 2017 (niveau le plus bas, en très nette baisse),
    • la taille moyenne (en code Markdown, hors images donc) des dépêches a encore augmenté de 35 % (une partie de l’explication vient des dépêches hebdomadaires tirées de l’Agenda du Libre) ;
  • 35 810 journaux (20 % de publication en moins qu’en 2016) ;
  • 34 700 entrées de forum (20 % de publications en moins qu’en 2016) ;
  • 391 sondages (seulement quatorze publiés dans l’année) ;
  • 106 pages de wiki (une trentaine de tutoriels publiés).

Le pic de publication des contenus reste le mercredi sur l’ensemble des contenus (mais on note une différence entre les contenus modérés a priori et les autres, voir la partie Modération plus bas). Un jour de semaine compte 71 % de publications en plus qu’un jour de week‐end (chiffre stable par rapport à 2016).

La publication sous licence Creative Commons By-SA se fait par défaut depuis les dix ans de CC, fin 2012 pour les dépêches (permet explicitement une rédaction collaborative ou un renvoi en re‐rédaction) et les journaux (qui peuvent être convertis en dépêche) : tout naturellement on retrouve 97 % de dépêches et 97 % des journaux sous cette licence au final (les autres étant notamment sous licence Art Libre ou autres, au choix de l’auteur). Les dépêches collaboratives sont toujours aussi nombreuses sur de multiples sujets, vraies réussites du site ; nous sommes cependant toujours à la recherche de volontaires pour couvrir les nombreux sujets qui n’ont pu être abordés (des sujets non abordés sont mentionnés dans les journaux bimensuels de rétrospective, par exemple celui de la première quinzaine de décembre). Une liste des thèmes récurrents sur LinuxFr.org peut donner des idées de participation : si une dépêche n’a pas été créée dans les temps, tout inscrit peut la démarrer dans l’espace de rédaction.

Modération

Le temps moyen passé entre la création d’une dépêche (en rédaction ou directement envoyée en modération) et sa modération et publication est de 657 heures (contre 277 h en 2016, 219 h en 2015 et 288 h en 2014) ; la mesure du temps passé uniquement en modération n’est pas actuellement disponible (et la modération retient volontairement des dépêches non-urgentes pour réguler la publication) ; le temps médian est de 17 heures (contre 13 h en 2016 et 14 h en 2015). Il s’agit probablement de l’effet d’une meilleure animation de l’espace de rédaction, qui permet d’écrire collaborativement et d’envoyer les dépêches en modération plus vite. Il y a des demandes de statistiques dans le suivi, envoyez les pull‐requests. ;-)

Le jour de modération a priori des contenus est le mardi pour les dépêches et le lundi pour les sondages.

Une information ajoutée dans les statistiques début 2017 : les nombres d’interdictions de tribune et d’interdictions de poster des commentaires (pour une durée de un ou deux jours, une semaine ou un mois) restent très faibles à l’échelle du site (respectivement 18 et 19 fois).

Commentaires

Au 31 décembre 2017, le site comporte 1,71 million de commentaires. Le nombre de commentaires par an est en baisse de 24 % (pour la 5e année consécutive) pour arriver à 38 000.

Il y a désormais, en moyenne, 36 commentaires par journal (35 précédemment en 2016, 23 depuis l’origine du site), 17 par dépêches (23 précédemment et 24 depuis l’origine), 40 par sondage (59 précédemment, mais très dépendant des sondages considérés ; 74 depuis l’origine), 2 par entrée de forum (7 précédemment et 5 depuis l’origine), 2 par entrée de suivi (3 depuis l’origine) et une poignée par page wiki.

Le jour préféré pour commenter reste le mercredi et un jour de semaine compte deux fois plus de publications de plus qu’un jour de week‐end.

Notes

Il n’y a (toujours) pas de statistiques disponibles concernant les notes. Les entrées de suivi sur les statistiques ont trop peu avancé en 2017, malgré quelques améliorations arrivées en janvier 2017.

Tags

  • 10 850 tags (+ 8 % par rapport à 2016) dont 10 580 tags publics ;
  • 85 910 saisies de tags (tagués en moyenne huit fois pour les tags publics et onze fois pour les tags privés) ;
  • les tags sont répartis ainsi par contenus :
    • 45 000 pour les dépêches,
    • 27 700 pour les journaux
    • 12 400 pour les forums,
    • 440 pour les pages wiki,
    • 260 pour les sondages,
    • 250 pour le système de suivi des défauts et évolutions.

Depuis le début du site, on constate en moyenne 4 tags/pages wiki, 1,8 tag/dépêche, 0,8 tag/journal, 0,7 tag/sondage, 0,4 tag/entrée de forum et 0,1 par entrée du suivi.

On peut aussi noter une autre particularité : le jour où le plus de tags sont apposés est le lundi (et non le milieu de semaine, qui est le pic de publication des contenus et des commentaires).

Équipe de bénévoles

Il y a actuellement 7 admins Web/système, 10 modérateurs et 7 animateurs de l’espace de rédaction qui font tourner ce site (un admin et un animateur de moins, merci à eux pour le travail accompli). Pour mémoire, il s’agit de bénévoles plus ou moins disponibles et donc absolument pas de 24 équivalents temps plein pour jargonner comme une entreprise.

Code et développement

Au 31 décembre 2017, le système de suivi de défauts et de demandes d’évolutions contient 223 entrées (contre 219 en 2016 et 191 en 2015). On voit assez rapidement un manque de développeurs apparaître. En 2017, il y a eu 91 entrées ouvertes (contre 92 en 2016, 123 en 2015 et 232 en 2014) : 47 entrées encore ouvertes venant s’ajouter à celles datant d’avant, 19 corrigées et 25 déclarées invalides). On peut remarquer ceux qui ouvrent le plus d’entrées sont des membres actuels ou anciens de l’équipe du site.

C’est Bruno qui, de loin, a corrigé le plus d’entrées. Le temps moyen de résolution est de 91 jours (contre 74 précédemment), encore en hausse. La moitié des entrées fermées ont été traitées en moins de six jours. On ressent donc toujours un besoin de nouveaux contributeurs côté code.

La charge moyenne sur le serveur est de 1,9 (contre 1,1 en 2016) sur la machine actuelle (baptisée gruik). La charge minimale a été de 0,7 et la maximale de 4,8 (une utilisation abusive à plus de 11 requêtes par seconde en continu).

La consommation mémoire est stable sur la partie de l’année sur laquelle ces statistiques existent. Le trafic réseau sur la partie Web est en moyenne de 8,2 Mbit/s sortants (contre 4,9 précédemment) pour 520 kbit/s entrants (contre 410 précédemment), avec des pics à deux fois ces valeurs). Le trafic réseau total est en moyenne de 9,7 Mbit/s sortants (contre 6,4 précédemment) pour 590 kbit/s entrants (contre 470 précédemment), avec des pics à 14,1 Mbit/s sortants.

Comptes utilisateurs

Au 31 décembre 2017, sur les 39 340 comptes utilisateurs valides existants, 2 800 ont été utilisés au cours des trois derniers mois (34 % (+ 2 points) ont déjà rédigé des dépêches, 38 % (+ 1 point) des journaux, 39 % (+ 1 point) des entrées de forums, 10 % des entrées dans le système de suivi ; 81 % (+ 1 point) ont écrit des commentaires et 41 % tagué des contenus (+ 3 point) ; 26 % (+ 1 point) des comptes actifs ont indiqué un site personnel, 11 % (- 1 point) un identifiant XMPP, 24 % (+ 2 points) un avatar et 5 % une signature.

Côté utilisation des fonctionnalités, 3 % ont demandé à ne pas voir les signatures et 5 % à ne pas voir les avatars (chiffres stables) et à peine quelques pourcents ont changé les contenus par défaut en page d’accueil (souvent pour retirer les sondages et ajouter les journaux). Peu de feuilles de style CSS du site sont utilisées : plus des trois quarts des visiteurs utilisent celle par défaut ; il est facile d’en changer avec le lien Changer de style.

Moins de 20 comptes ont un karma négatif, soit 0 % des visiteurs actifs ; 19 % des comptes actifs durant les trois derniers mois ont été créés en 2017.

Nouvelle statistique ajoutée début 2017 : 36 % des visiteurs actifs ont une adresse de courriel GMail, 12 % chez Free, 3 % chez Yahoo et 3 % chez Hotmail ou Outlook et 2 % chez Orange ou Wanadoo.

Au 1er janvier 2018, pour les comptes créés après 2012 (pour éviter l’effet du grand nettoyage de 2011) :

  • ceux actuellement fermés l’ont été après 179 jours en moyenne et un jour pour la médiane (donc, en gros, on a fermé en quelques heures des comptes de spammeurs) ;
  • ceux actuellement ouverts le sont depuis 1 138 jours en moyenne et 1 132 jours pour la médiane (sur les 2 192 jours depuis janvier 2012).

Soucis divers

L’année 2017 a apporté la seconde mise en demeure de l’association LinuxFr.

/ Only two formals notice in the default \
\ install, in a heck of a long time!     /
 ----------------------------------------
   \
    \
        .--.            / Ouep...  \
       |o_o |           \ Euh coin /
       |:_/ |            ----------
      //   \ \              \ 
     (|     | )               \
    /'\_   _/`\                \ >()_
    \___)=(___/                   (__)__ _

Depuis la création du site, statistiques liées au légal (dans les sens liés à la force publique ou à du juridique) :

  • deux mises en demeure reçues (pour zéro assignation) ;
  • une réquisition judiciaire reçue (qui au final ne nous concernait pas, mais a donné l’occasion de discuter avec la police nationale) ;
  • un cas d’usurpation d’identité et de harcèlement type « revenge porn » (discussion avec la gendarmerie nationale).

Dans les choses toujours à dire et à faire

Il y a encore bien d’autres choses à dire et à faire concernant les statistiques du site, notamment des statistiques supplémentaires demandées par mjourdan dans le cadre de l’amélioration de l’expérience utilisateur sur le site, les entrées de suivi concernant les statistiques, ou l’idée de tester une autre solution des stats Web (depuis 2010). Mais cette dépêche étant déjà suffisamment longue, ça sera pour une seconde dépêche (à laquelle il est bien sûr possible de contribuer dans l’espace de rédaction).

Aller plus loin

  • # La faute à Java ?

    Posté par . Évalué à 2.

    et un autre bot en Java abuse carrément

    Ici, Java ne pouvant absolument pas être le critère discriminant, est-il possible de remplacer par le nom de l'indélicat bot ?

    Super la revue, meilleurs vœux pour cette nouvelle année et tous mes encouragements \o/

  • # judiciaire

    Posté par . Évalué à 5.

    Sans donner les détails privés, serait-il possible de préciser la teneur et le déroulement des échanges avec les autorités judiciaires ?
    Je me demande bien comment ça se passe.

    • [^] # Re: judiciaire

      Posté par (page perso) . Évalué à 10.

      une réquisition judiciaire reçue (qui au final ne nous concernait pas, mais a donné l’occasion de discuter avec la police nationale) ;

      Un simple courriel, avec en pièce jointe un document officiel numérisé. On vérifie les coordonnées commissariat/officier de police judiciaire fournies pour s'assurer que c'est bien une vraie demande. On voit que la demande n'est visiblement pas pour nous (pas une adresse de courriel de chez nous), on vérifie néanmoins à tout hasard si on n'a aucun trace de l'adresse de courriel visée (base de données web, listes de diffusion, serveur mail, etc.). On appelle le policier en charge du dossier pour lui expliquer que ce n'est pas avec nous qu'il faut voir, on lui donne les infos techniques en notre possession (le whois sur le bon domaine), il nous remercie, on lui confirme ça par courriel simple.

      un cas d’usurpation d’identité et de harcèlement type « revenge porn » (discussion avec la gendarmerie nationale).

      La situation était différente : on a eu un contenu envoyé en modération rejeté et un contenu publié dans les journaux (supprimé rapidement a posteriori), qui étaient manifestement illégaux. Puis un contact par courriel d'une personne disant être la victime qui était tombée sur le journal dans le cache Google alors qu'il était déjà supprimé chez nous. La situation était compliquée vu que justement l'auteur des faits usurpait des identités de la victime et de ses connaissances (ie le contact pouvait venir de l'usurpateur). Mais au final la seule information pertinente était de savoir où la plainte était déposée. Après vérification des coordonnées de la gendarmerie (ie on échangeait bien avec la victime), on l'appelle, on explique la situation, les infos en notre possession, et on envoie ensuite un courriel avec un document circonstancié contenant des copies des documents concernés, les nom/pseudos, adresses mail (visiblement toutes "fausses" au nom de la victime) et les IP en notre possession.

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.