Journal Vocabulaire incorrect : les véritables résultats

Posté par .
Tags : aucun
15
24
oct.
2012

Résumé des épisodes précédents :

Je m'étais fait l'écho dans ce journal d'un sondage en ligne se proposant de mesurer la proportion de gens employant le terme incorrect de "chocolatine" en lieu et place de "pain au chocolat" en France métropolitaine.

Quelque temps plus tard, je postai cet autre journal, suite à la publication de résultats partiels.

Depuis, les résultats sont mis à jour en temps réel sur le site du sondage en fonction du département. Le nombre de votes a considérablement augmenté, cependant la tendance persiste : le mot incorrect continue à caracoler dans les 40%. Or, ce résultat est évidemment biaisé : la population des départements utilisant ce mot n'est pas à la hauteur.

Le juste retour des choses

Afin de ramener les choses à leur juste valeur, je me suis livré à l'exercice consistant à rectifier les résultats en tenant compte du poids démographique.
J'ai d'abord extrait les données suivantes : numéro de département, nombre de votants, pourcentage ayant voté pour "chocolatine", à l'aide d'un petit script python, de la carte des résultats afin d'en faire un tableau simple en csv.

Puis, j'ai ajouté à ce tableau une colonne contenant la population (en date de 2009) de chaque département, d'après wikipédia après quoi on pouvait facilement se livrer à ce calcul très simple : appliquer le pourcentage des votants pour "chocolatine" de chaque département à sa population respective, afin d'obtenir un nombre de votes représentatif pour la population.
Dès lors, le vrai score à l'échelle de la France s'obtient en sommant tous ces votes, divisé par la population totale de tous les départements.

Le résultat est sans appel : 18,1% contre 81,9% pour "pain au chocolat"
Tel est donc le véritable score que le lobby sudiste a tenté d'occulter en se ruant massivement sur le sondage.

Annexe

Le csv contenant toutes les données vérifiables est téléchargeable ici : http://olcc.logicielslibres.info/attach/20121024181005_chocolatine_demo.csv

Signification des colonnes :
1) Numéro du département
2) Nombre de votants
3) Pourcentage pour "chocolatine"
4) Population du département
5) Pourcentage de chocolatine appliqué à la population
6) Participation (% de votants par rapport à la population du département)

Les données sont triées selon la dernière colonne décroissante, ce qui permet de s'apercevoir facilement que tous les départements où "chocolatine" a gagné ont une participation très supérieure à la moyenne nationale (qui est de 0.05%).
La dernière ligne contient les totaux nationaux.

  • # analyse du résultat

    Posté par . Évalué à 10.

    D'après tes résultats on tombe dans le classique 80/20 de toutes les stats : 80% se trompent et 20% ont raison.

    • [^] # Re: analyse du résultat

      Posté par . Évalué à 4.

      le classique 80/20

      80% se trompent et 20% ont raison

      Ce corollaire n'engage que toi :)

      Le principe de Pareto

      Je donne le lien parce qu'elle m'a toujours impressionné cette « loi ».

    • [^] # Re: analyse du résultat

      Posté par . Évalué à -1.

      80% des commentaires d'un forum

      sont issus de 20% des participants.

      hum…alors 80% des commentaires sont faux, parce qu'ils émanent des 20% d'individus raisonnables.

      arf.

  • # En parlant de biais...

    Posté par (page perso) . Évalué à 8.

    En consultant http://fr.wikipedia.org/wiki/Pain_au_chocolat on peut s'apercevoir que cette viennoiserie porte non pas 2 mais au moins 5 dénominations différentes.

    On peut donc s'interroger sur la légitimité de cette enquête bien plus en regardant la question qu'en allant chercher dans les tréfonds d'un fichier csv.

    PS : chocolatine reste le terme le plus élégant, tout en étant correct, pour désigner cette viennoiserie.

    \_o<

    • [^] # Re: En parlant de biais...

      Posté par . Évalué à 10.

      PPS: nazis de la chocolatine reste le terme le plus élégant, tout en étant correct, pour désigner ces enfoirés de sudistes de l'ouest.

      Tous les nombres premiers sont impairs, sauf un. Tous les nombres premiers sont impairs, sauf deux.

      • [^] # Re: En parlant de biais...

        Posté par (page perso) . Évalué à -2.

        Au delà de l'humour, je me répète encore, merci de ne pas utiliser le terme "nazis" pour tout et n'importe quoi. Cela n'a qu'un résultat à terme : son utilisation généralisé dans des contextes très éloignés de l'horreur de la seconde guerre mondiale.

        • [^] # Commentaire supprimé

          Posté par . Évalué à 10.

          Ce commentaire a été supprimé par l'équipe de modération.

          • [^] # Re: En parlant de biais...

            Posté par (page perso) . Évalué à 1.

            Et toi, ne tombe pas dans la panneau de la facilité !

            L'Europe s'est construit sur le "plus jamais ça". profites bien de la paix que nous avons actuellement, je suis loin d'être persuadé qu'elle va durer encore si longtemps (tiendrons nous le choc de la fin du pétrole ?).

            Voila, j'emmerde les humoristes à deux balles qui répète bêtement une blague faite par Linus.

            -> []

      • [^] # Re: En parlant de biais...

        Posté par (page perso) . Évalué à 4.

        Se faire traiter d'enfoiré et de nazi, ce n'est pas ce que j'appelle de l'élégance.

        Je doute que tu aies appris ceci quand tu étudiais au pays des chocolatines. Ou même que tu osasses le dire à tes connaissances occitanes à cette époque là.

        \_o<

    • [^] # Re: En parlant de biais...

      Posté par (page perso) . Évalué à 4.

      Tiens c'est vrai, je n'avais jamais pensé à ça, mais c'est effectivement plus élégant, comme « orteils » par rapport à « doigts de pied ».

  • # Biais dans les résultats

    Posté par (page perso) . Évalué à 5. Dernière modification le 24/10/12 à 18:47.

    Je comprends tout à fait ta démarche mais attention, beaucoup ont inscrit leur département d'origine et non le département où ils résident. Je connais par exemple un certain nombre de Parisiens originaires du sud-ouest qui ont inscrit leur département de naissance.

    En conclusion, le taux est probablement supérieur à ce que tu annonces. Cela dit, personne ne nie que le terme Chocolatine est utilisé de manière minoritaire… Les défenseurs du terme disent simplement que c'est un mot plus joli à entendre.

    • [^] # Re: Biais dans les résultats

      Posté par (page perso) . Évalué à 8.

      Bin oui c'est demandé "ville d'origine" pas "ville de résidence". Je suis un parigot mais j'ai mis mon village de Bretagne.

      L'association LinuxFr ne saurait être tenue responsable des propos légalement repréhensibles ou faisant allusion à l'évêque de Rome, au chef de l'Église catholique romaine ou au chef temporel de l'État du Vatican et se trouvant dans ce commentaire

  • # Sainte Merde, comment peut-on écrire comme ça ?

    Posté par . Évalué à -10.

    Sainte Merde, comment peut-on écrire comme ça ? 😞

    Je m'étais fait l'écho Je me suis fait l'écho

  • # Pourquoi serait-ce plus pertinent ?

    Posté par . Évalué à -1.

    Est-il plus pertinent d'interroger ceux qui ont un avis à donner, ou tout le monde ? Doit-on rendre une élection illégitime car une région est sous-représentée ?

    • [^] # Re: Pourquoi serait-ce plus pertinent ?

      Posté par . Évalué à -1.

      Je ne savais pas que c’était un élection dont le résultat devait faire autorité!
      Je croyais que c’était un simple sondage, et qu'il était donc légitime de réduire les biais.

      Si c'est une élection, la chocolatine a perdu dans tous les cas…

      • [^] # Re: Pourquoi serait-ce plus pertinent ?

        Posté par . Évalué à 1.

        Je croyais que c’était un simple sondage, et qu'il était donc légitime de réduire les biais.

        Oui, mais comme il n'est pas précisé la quantité qu'on cherche à mesurer, minimiser les biais n'a pas de sens.

  • # Cartographie des résultats

    Posté par . Évalué à 7.

    Une carte étant toujours plus parlante qu'un csv barbare, et parce que le monde du logiciel libre fournit tout les outils pour faire des analyses poussées et de belles cartographies a partir de données brutes; quelqu'un a pondu une magnifique cartographie des résultats, avec la méthode !

    http://blog.adrienvh.fr/2012/10/16/cartographie-des-resultats-de-chocolatine-ou-pain-au-chocolat/

    • [^] # Re: Cartographie des résultats

      Posté par (page perso) . Évalué à 6. Dernière modification le 24/10/12 à 22:36.

      CQFD,

      dans cette cartographie on voit parfaitement le résultat du bombardement radioactif de Tchernobyl, et cela plus de 20 ans après.
      Seul la zone en bleu est saine.

      Pour la corse je comprend pas, à moins que cela soit le résultats des rayonnements magnétoélectriques solaires plus abondant dans le sud-est de la France/Europe.

      Oups, mes souvenirs de stats me font penser qu il manque l écart type et la validité de l’échantillon par un test de X²

    • [^] # Re: Cartographie des résultats

      Posté par . Évalué à 2.

      Ce lien est justement l'objet de tout le 2eme journal cité dans la partie "résumé des épisodes précédents". Si je me suis fendu d'une nouvelle analyse, c'est précisément parce que cette carte, bien que très intéressante en elle-même, est fondée sur les données brutes du sondage sans tenir compte du facteur démographique.

      Or, ces données sont complètement biaisées en raison de la sur-représentation excessive du sud-ouest parmi les votants, ce que démontre mon petit exercice. Mon but était essentiellement de corriger les "40%" annoncés pour le mot incorrect, en démontrant que l'emploi réel de ce mot se trouvait sous les 20%.

      Mais libre à toi de produire une nouvelle carte avec les données corrigées de mon fichier. Cependant, la granularité étant le département, celle-ci va ressembler trait pour trait à http://www.chocolatineoupainauchocolat.fr/resultats.php … modulo les 2 pourcentages affichés en haut !

      • [^] # Re: Cartographie des résultats

        Posté par . Évalué à 1.

        Je suis surpris de la coupure franche entre les 2 parties. Je m'attendais à retrouver des résultats serrés dans les départements limitrophes de la zone dure des dissidents chocolatins. En fait à part les Deux-Sèvres (43%/57%) et la Haute-Vienne (38%/62%), les écarts sont vraiment très important (20%/80% voir 5%/95%).

        Comme quoi le découpage en département/région reflète assez bien les différentes cultures françaises.

  • # enfin un sondage

    Posté par . Évalué à 4.

    sur plus de 800 personne. Ça fait du bien. Ça manque ce genre de carte pour les sondages que nous sort la télé. Et du coup je me dis , vraiment ces sondage repris en disant 'les français' pense que 'question a la con' avec 800/900 personnes interrogé, avec un peu de bol 50% en région parisienne. C'est pas sérieux du tout.

    • [^] # Re: enfin un sondage

      Posté par . Évalué à 1.

      L'échantillon représentatif est par contre très critiquable, les individus ont choisis eux-même de participer ou non au sondage et cela est méthodologiquement impardonnable. Mais pour des pains au chocolat on fera avec !

  • # De toutes façons

    Posté par (page perso) . Évalué à -6.

    Celui qui me parle de pain au chocolat prend un pain tout court.

    Prochainement, je vous proposerai peut-être un commentaire constructif.

  • # Pardi...

    Posté par . Évalué à 1. Dernière modification le 25/10/12 à 18:33.

    de votants …
    faisant donc partie de la population lettrée, voyante, non muette ayant accès à internet à l'heure de l'émission du sondage, ayant acheté au moins une fois dans leur vie une telle viennoiserie, avec une propension au chauvinisme centriste issu de la culture historique rayonnante (de gré ou de force) des personnes issues de régions parlant à l'origine la langue d'Oil ?

    haaa, que c'est loin les cours d'enquête du Stid !

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.