Statistiques 2014 du site LinuxFr.org

Posté par (page perso) . Édité par rewind et BAud. Modéré par Pierre Jarillon. Licence CC by-sa
35
3
jan.
2015
LinuxFr.org

En ce début d'année 2015, commençons par un petit regard en arrière sur les douze derniers mois d'activité de LinuxFr.org : quelle évolution en termes de trafic web, de contenus créés, de commentaires déposés, de navigateurs utilisés, d'utilisation des fonctionnalités du site, etc. Qu'est-ce qui a changé et comment durant 2014 ?

Le site rend accessible un grand nombre de statistiques (faites-vous plaisir si vous souhaitez vous plonger dedans, c'est fait pour) ; cette dépêche résume les variations constatées en 2014.

Toute l'équipe du site vous souhaite une bonne année 2015 libre, ouverte et net ! Happy hacking. Happy GNU year!

Sommaire

Statistiques web

La comparaison des statistiques annuelles (voir 2013 et 2014) montre

  • globalement des chiffres plutôt à la hausse sur l'année ; au final toujours en hausse (+18%) en volume (ko), pour plus de visites (+3%) et de pages servies (+5%) ; une visite est comptée comme le retour d'une même adresse IP après un certain temps, 10 min pour LinuxFr.org (les clients RSS/Atom qui reviennent plus régulièrement abaissent donc le chiffre) ;
  • côté navigateurs (sur les mois de décembre), on constate que
    • les moteurs de recherche sont toujours aussi présents (environ 9% à eux tous, avec encore une baisse côté GoogleBot et une hausse côté BingBot) ;
    • tous les MSIE sont encore hors classement (chacun faisant donc moins d'un demi-pourcent de fréquentation), sauf… le retour de IE 6.0, avec 0,88% (probable faille dans le continuum espace-temps, ou alors juste parce les données de décembre sont particulièrement atypiques, on trouve IE 9.0 dans le classement de novembre avec plus de 1%) ;
    • Opéra est aussi sorti du classement ;encore, en baisse.
    • toujours de nombreux lecteurs RSS/Atom, des coincoins et autres bots.

Stats web 2014

Contenus

Le site comporte environ 92 000 contenus répartis ainsi :

  • 23 100 dépêches publiées
    • 877 dépêches publiées en 2014 (niveau le plus bas) ;
    • la taille moyenne (en code markdown, hors images donc) des dépêches progresse encore (et de 20%) ;
    • le temps moyen passé entre la création d'une dépêche (en rédaction ou directement envoyée en modération) et sa modération/publication est de 280 heures (contre 330h en 2013) ; la mesure du temps passé uniquement en modération n'est pas actuellement disponible ; le temps médian est de 15 heures (contre 13h en 2013). Il s'agit probablement de l'effet d'une meilleure animation de l'espace de rédaction, qui permet d'écrire collaborativement et d'envoyer les dépêches en modération plus vite. Le pic de modération est le mercredi (globalement le jour de plus grande activité du site en général) ;
  • 34 900 journaux (en terme de publication, niveau le plus bas depuis l'apparition des journaux, alors que le pic était en 2012 ; on peut aussi noter que journaux et dépêches baissent simultanément) ;
  • 32 100 entrées de forum (le nombre d'entrées de forums publiées par an est stable) ;
  • 339 sondages (une vingtaine publiée dans l'année) ;
  • 167 pages de wiki (+10%, mais sur un volume faible).

Le jour de publication préféré des contenus reste le mercredi (mais le mardi est assez proche), et un jour de semaine compte trois quarts de publications en plus qu'un jour de week-end.

La publication sous licence Creative Commons By Sa se fait par défaut depuis les 10 ans de CC fin 2012 pour les dépêches (permet explicitement une rédaction collaborative ou un renvoi en re-rédaction) et les journaux (qui peuvent être convertis en dépêche) : tout naturellement on retrouve 98% de dépêches et 98% des journaux sous cette licence au final (les autres étant notamment sous licence Art Libre ou autres au choix de l'auteur). Les dépêches collaboratives sont toujours aussi nombreuses sur de multiples sujets, vraies réussites du site ; nous sommes cependant toujours à la recherche de volontaires pour couvrir les nombreux sujets qui n'ont pu être abordés.

Commentaires

Le site comporte 1,56 million de commentaires. Le nombre de commentaires par an est en baisse de plus de 20% (après une baisse identique l'année précédente) pour arriver à 71 000.

Il y a désormais, en moyenne, 46 commentaires par journal (49 précédemment), 21 par dépêches (23 préc.), 52 par sondage (96 préc., mais très dépendant des sondages considérés), 7 par entrée de forum, 3 par entrée de suivi et 1 ou 2 par page wiki.

Notes

Il n'y a (toujours) pas de statistiques disponibles concernant les notes. Les entrées de suivi sur les statistiques n'ont pas trop avancé en 2014.

Tags

  • 7805 tags dont 7682 tags publics
  • 60 240 saisies de tags (tagués en moyenne 7 fois pour les tags publics et 14 fois pour les tags privés)
  • les tags sont répartis ainsi par contenus :
    • 19 700 pour les journaux ;
    • 33 200 pour les dépêches ;
    • 6 800 pour les forums ;
    • 190 pour le système de suivi des défauts/évolutions ;
    • 150 pour les sondages ;
    • 210 pour les pages wiki.

Globalement les chiffres en 2014 sont en forte hausse par rapport à 2013 (+50%).

On peut aussi noter une autre particularité : le jour où le plus de tags sont apposés est le lundi (et non le milieu de semaine qui est le pic de publication des contenus).

Équipe de bénévoles

Il y a actuellement 7 admin web/système (inchangé par rapport à 2013), 9 modérateurs (11 préc.) et 6 animateurs de l'espace de rédaction (2 préc.) qui font tourner ce site.

Code et développement

Le système de suivi de défauts/demandes d'évolutions contient actuellement 131 entrées (contre 122 début 2014). En 2014, il y a eu 232 entrées (contre 172 l'année précédente) : 68 entrées encore ouvertes venant s'ajouter à celles datant d'avant, 105 corrigées et 59 déclarées invalides). On peut remarquer ceux qui ouvrent le plus d'entrées sont des membres actuels ou anciens de l'équipe du site.

C'est Bruno qui de loin a le plus corrigé d'entrées. Le temps moyen de résolution est de 71 jours (contre 65 précédemment), encore en hausse. La moitié des entrées fermées ont été traitées en moins de 6 jours (stable). On ressent donc toujours un besoin de nouveaux contributeurs côté code.

Actuellement, Ohloh évalue le code du site comme étant à 60% Ruby (=), 12% HTML (=), 12% Javascript (=), 16% divers (dont beaucoup de HAML). Les 16 900 lignes de code (préc. 15 900) sont évaluées - à prendre avec des pincettes - à 4 hommes.an et 208 k$ (environ 173 k€). Ces statistiques ne concernent que le dépôt git principal, pas ceux des scripts d'administration ou Ansible, ou les bibliothèques extraites de LinuxFr.org (french-rails, HTML truncator et HTML spellchecker) ou des daemons (board, share, img, svgtex, epub) : on atteindrait alors plus de 20 000 lignes de code avec eux.

La charge moyenne sur le serveur est de 0,82 (contre 0,67 en 2014) sur la machine actuelle (baptisée gruik). La charge minimale a été de 0,41 et la maximale de 1,7 (probablement une opération d'adminsys).

La consommation mémoire est stable sur la partie de l'année sur laquelle ces statistiques existent. Le trafic réseau sur la partie web est en moyenne de 1,2 Mbit/s sortants pour 110 kbit/s entrants (avec des pics à 3 ou 4 fois ces valeurs). Le trafic réseau total est en moyenne de 4,4 Mbit/s sortants pour 350 kbit/s entrants (avec des pics à 7,7 Mbit/s sortants).

Comptes utilisateurs

Sur les 32 150 comptes utilisateur valides existant, 3 510 ont été utilisés au cours des 3 derniers mois (31% ont déjà rédigé des dépêches, 35% des journaux, 35% des entrées de forums, 8% des entrées dans le système de suivi, tous ces chiffres étant assez stables en comparaison avec 2013). 80% ont écrit des commentaires et 34% tagué des contenus (+10 points). 26% des comptes actifs ont indiqué un site personnel, 12% un identifiant XMPP, 21% un avatar et 5% une signature.

Côté utilisation des fonctionnalités, 2% ont demandé à ne pas voir les signatures et 5% à ne pas voir les avatars (chiffres stables), et à peine quelques pourcents ont changé les contenus par défaut en page d'accueil (souvent pour retirer les sondages et ajouter les journaux). Peu de CSS/apparences du site sont utilisées : les trois quarts des visiteurs utilise celle par défaut ; il est facile d'en changer avec le lien Changer de style.

Soucis divers

L'année 2014 a été une année sans mise en demeure (chiffre en baisse de 1 par rapport à 2013 donc :). Voir les dépêches relatant l'annonce initiale, les excuses du PDG de la société suite à l'effet Streisand et le signalement effectué au barreau des avocats de Paris.

A contrario, nous avons été victimes d'une attaque via notre moteur de recherche interne ElasticSearch (désactivé depuis), durant l'été. Plus de détails à venir dans une dépêche qui traîne dans les tuyaux depuis des mois.

Dans les choses toujours à faire

Il est pas mal d'entrées de suivi concernant les statistiques. Ainsi que réitérer le test d'une autre solution des stats web, d'une solution de graphes (cf une dépêche en rédaction depuis début janvier 2013, soupir).

  • # Stats web

    Posté par . Évalué à 2. Dernière modification le 04/01/15 à 10:14.

    Ainsi que réitérer le test d'une autre solution des stats web

    Pardon si je retarde d'une guerre mais avez-vous essayé awstats? Quelles en ont été vos conclusions? Pour info, c'est mon moteur de [p]référence.

    • [^] # Re: Stats web

      Posté par (page perso) . Évalué à 4.

      C'est dans ma TODO list (soupir, comme Benoît).

    • [^] # Re: Stats web

      Posté par . Évalué à 1.

      Ou open web analytics

    • [^] # Re: Stats web

      Posté par (page perso) . Évalué à 10.

      Si vous avez besoin d'un coup de main pour la mise en place d'AWStats, l'auteur (donc moi même) est à votre disposition  ;-)

      Responsable Agence Bordeaux de la société Open Source TecLib (http://www.teclib.com)

      • [^] # Re: Stats web

        Posté par (page perso) . Évalué à 2.

        Piwik, moderne, performant, bonne API et possibilité de parser les logs…
        Communauté open source et active…

        Mon projet libre: http://ultracopier-fr.first-world.info/, mon jeu libre: http://catchchallenger.first-world.info/

        • [^] # Re: Stats web

          Posté par (page perso) . Évalué à 7.

          En fait, alpha_one_x86 nous a déjà parlé de piwik dans le même contexte l'année dernière et Laurent (merci à lui) s'était déjà proposé pour aider en 2010 (ici et ).

          • [^] # Re: Stats web

            Posté par (page perso) . Évalué à 3. Dernière modification le 05/01/15 à 22:10.

            Piwik ajouterait de la charge à chaque requête et n'utilise pas le cache HTTP (à ma connaissance).

            Laurent a raison : sur TuxFamily.org, l'ajout d'un cache DNS a permis l'utilisation d'une fonction tout de même utile, sans que cela prenne plus de 12h par jour, les stats étant générées à partir de 3h du mat' iirc. Pour des sites francophones principalement sur UTC+1 et +2, le traitement doit se terminer vers 6h du mat' heure française pour ne pas gêner la navigation.

            Si, en plus, les stats peuvent être générées à la volée (possible sur LinuxFr.org avec un seul fichier de log par jour), gagné !

            • [^] # Re: Stats web

              Posté par (page perso) . Évalué à 3.

              Si tu parle de charge cpu oui, comme n'importe quel système de tracking, le tout c'est que ce soit modéré. Cela peu être aussi décentralisé sur un autre serveur. Ensuite le tracking peu être fait via http (élément html) ou via API…

              L'idée c'est surtout réutiliser un truc existant qui est très correcte plutôt que de refaire de 0.
              Voir même contribuer :p

              Mon projet libre: http://ultracopier-fr.first-world.info/, mon jeu libre: http://catchchallenger.first-world.info/

              • [^] # Re: Stats web

                Posté par (page perso) . Évalué à 2. Dernière modification le 08/01/15 à 21:40.

                le tout c'est que ce soit modéré.

                la gestion du cache HTTP sur LinuxFr.org fait qu'il n'y a que pour les ~3000 inscrits qu'il y a des requêtes vers le MySQL : pour tous les autres, seul apache^W nginx travaille et fournit un fichier statique (ce qui évite de surcharger avec des requêtes MySQL pour chaque accès à LinuxFr.org).

                L'utilisation de Piwik en mode non lié à une requête http qui générerait une requête à MySQL permet d'éviter ce qui pourrait trop surcharger le serveur (voire générerait un DDoS intrinsèque, pouvant potentiellement être exploité), toutes les fonctionnalités et infos fournies par Piwik sont-elles disponibles et les mêmes selon le mode utilisé ?

                Il y a quelques infos sur organisation-code-linuxfr et aussi dans la dépêche de NoNo< sur l'architecture de LinuxFr.org.

                Ensuite, le tracking peut être fait via http (élément html) ou via API…

                des détails là-dessus et la conf' à mettre en place seraient une bonne piste àmha ;-)

                Il y a des paquets debian de piwik, ça peut aider en plus, le tout étant de trouver la bonne conf' avec les serveurs disponibles et de trouver aux admins le temps de regarder.

  • # D'autres stats?

    Posté par (page perso) . Évalué à 6.

    L'année 2014 a été une année sans mise en demeure (chiffre en baisse de 1 par rapport à 2013 donc :).

    Vous m'avez tué. :D Sinon, bravo à tout le monde et bonne continuation au site!

    Vous n'avez pas de statistiques sur le nombre moyen de contributeurs à une dépêche, le nombre de dépêches dont la parternité a été changé (dont collectif), le nombre d'éditions après coup par un admin, etc.?

    Écrit en Bépo selon l’orthographe de 1990

    • [^] # Re: D'autres stats?

      Posté par (page perso) . Évalué à 8.

      nombre moyen de contributeurs à une dépêche

      Nombre d'éditeurs autres que l'auteur :

      • 2013 : 129 dépêches sans (12%), 906 (88%) avec (moyenne 3,4 ; max 28)
      • 2014 : 105 dépêches sans (12%), 772 (88%) avec (moyenne 3,9 ; max 37)

      nombre de dépêches dont la parternité a été changé (dont collectif)

      • 2013 : 3 dépêches attribuées à Collectif
      • 2014 : 8 dépêches attribuées à Collectif

      nombre d'éditions après coup par un admin

      Par un admin ou un modérateur :

      • 2013 : 402 (39%) dépêches rééditées post-publication (2510 éditions du titre/section/lien/paragraphe/etc.)
      • 2014 : 384 (44%) dépêches rééditées post-publication (3665 éditions, mais attention il y en a moins mais elles sont plus longues)
  • # Génération tablette?

    Posté par (page perso) . Évalué à 3.

    Si j'ai bien compris, on a plus de visiteurs et moins de contributeurs?

    http://devnewton.bci.im

    • [^] # Re: Génération tablette?

      Posté par (page perso) . Évalué à 6. Dernière modification le 04/01/15 à 17:06.

      Les dépêches sont plus conséquentes aussi… 20% ça n’est pas négligeable.

      Écrit en Bépo selon l’orthographe de 1990

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.