Corpus Ngram Viewer de Google : évolution des termes utilisés dans la littérature

Posté par (page perso) . Modéré par patrick_g.
Tags : aucun
6
12
jan.
2011
Base de données
L'article « L’interprétation des graphiques produits par Ngram Viewer » m'a donné envie de faire quelques essais avec cet outil. « (...) mis en ligne par Google le 16 décembre dernier. Il permet de visualiser sous forme de graphiques les fréquences d'apparition de suites de mots dans les livres numérisés depuis 2003 sur Google Books. »

Bref on peut rechercher des séquences de un à cinq mots dans le corpus de livres numérisés, couvrant jusqu'à 2008. Le blog de Jean Véronis précise qu'il s'agit du « plus gros corpus linguistique de tous les temps : 500 milliards de mots (...) 4% des livres jamais publiés sur Terre ».

Ce corpus est disponible sous licence Creative Commons Attribution 3.0.

Je me suis livré à une petite recherche sur les termes pour geeks libristes, en anglais et français (liés aux lois et traités sur l'immatériel, au logiciel libre, etc.). Le plus simple est encore d'aller regarder les graphes obtenus.
  • # TRavaux concernant la langue française

    Posté par . Évalué à 2.

    Voir aussi les travaux du labo de linguistique cognitive de Lyon, avec exemples sur l'année 1996-1997
    « Un modèle pour l'étude du changement sémantique »
    http://dico.isc.cnrs.fr/fr/diachro.html

    Vous aurez d'un plugin flash.
  • # Quelques recherches intéressantes :

    Posté par . Évalué à 3.

    Concernant l'informatique et le libre :

    http://ngrams.googlelabs.com/graph?content=Linux%2C+Microsof(...)

    On observe une chute des termes Linux et de Microsoft avec la montée en utilisation du terme Google...

    Si on essaie d'observer plus finement :

    http://ngrams.googlelabs.com/graph?content=Ubuntu%2CLinux%2C(...)

    On voit un déclin dans l'utilisation des termes Linux et Microsoft. Par contre, on voit aussi que des mots comme Ubuntu ou Debian, plus spécialisé, sont davantage employés. Peut-être faut-il relativiser le déclin de l'emploi de certains termes par le fait qu'ils soient remplacés par d'autres termes plus spécialisé. Peut-être ne parle-t-on plus beaucoup de Windows XP mais plus d'XP, de Seven, de Vista. Pareil pour Linux, peut-être parle-t-on plus de Gnu-Linux ... :D enfin d'Ubuntu, de Debian, de Fedora... L'apparition de Google n'est peut-être qu'une coïncidence. Pour vérifier cela, il faudrait avoir accès au corpus... faire des études utilisant le classement automatique des textes, etc.
  • # Vocabulaire étudié jusqu'ici

    Posté par (page perso) . Évalué à 4.

    Corpus anglais et français
    Termes DADVSI, HADOPI, LOPPSI, ACTA, ACAC, FOSS, FLOSS, DRM, GPL, BSD, ADPIC, TRIPS, LOPSI, DMCA, EUCD, open source, logiciel libre, free software, GNU, Linux, Debian, Ubuntu, Mozilla, Firefox, OpenOffice, LibreOffice, interopérabilité, format ouvert, interoperability, open standard, vote électronique, electronic voting, net neutrality, software patents, logiciel propriétaire, logiciel privateur, vente liée, bundle sale, informatique déloyale, informatique de confiance, treacherous computing, trusted computing, contenu libre, licence libre, creative commons, commons, propriété intellectuelle, intellectual property, copyright, droit d'auteur, instruction publique, éducation nationale, éducation populaire, bien commun, bien public, partage de la connaissance, partage du savoir

    Je suis évidemment preneur de remarque/suggestion/correction et encore mieux d'autres sources.
  • # Résultats intéressants

    Posté par (page perso) . Évalué à 1.

    Bon c'est pas trop dans le thème de DLFP mais en voyant ça je me suis dit et si on regardait un peu en science. Par exemple le prix Nobel de physique de cette année : le graphène.

    On va là : http://ngrams.googlelabs.com/graph?content=graphene&year(...)

    On s'aperçoit un truc c'est qu'il y a un pic vers les années 1900. Si on regarde dans New Scientist ils ont publié des informations sur ce matériaux ! Donc pourquoi c'est pas eux qui ont eu le prix ?

    Avec cette montée d'informations facilement accessibles on va vraiment pouvoir faire des superbes choses !
    • [^] # Re: Résultats intéressants

      Posté par (page perso) . Évalué à 1.

      Et si je savais lire c'est Science Abstracts et pas New Scientist...
    • [^] # Re: Résultats intéressants

      Posté par (page perso) . Évalué à 1.

      Rappelle-nous un peu quand le Nobel a été institué ? :)
      • [^] # Re: Résultats intéressants

        Posté par (page perso) . Évalué à 1.

        Que je sache on ne donne pas un Nobel forcément à un découverte après Nobel ?
        C'est pour le/les pères fondateur(s) de la "technologie".

        Exemple simple : toujours en physique Rontgen a découvert en 1887 (selon wikipedia qui est peut être fiable pour le coup) les Rayons X.
    • [^] # Re: Résultats intéressants

      Posté par . Évalué à 2.

      Si ça se trouve c'est un mot qui a déja été employé dans l'histoire mais avec un sens différent ou le même mais de manière fantasmatique et théorique, on peut pas être sur si on a pas le texte.
  • # la cote

    Posté par . Évalué à 2.

    on peut même vérifier la cote de popularité des politiques! ;-)
    http://ngrams.googlelabs.com/graph?content=sarkozy&year_(...)

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.