Corpus Ngram Viewer de Google : évolution des termes utilisés dans la littérature

Posté par Benoît Sibaud (site web personnel) le 12 janvier 2011 à 11:07. Modéré par patrick_g.

Étiquettes : aucune

jan.

2011

L'article « L’interprétation des graphiques produits par Ngram Viewer » m'a donné envie de faire quelques essais avec cet outil. « (...) mis en ligne par Google le 16 décembre dernier. Il permet de visualiser sous forme de graphiques les fréquences d'apparition de suites de mots dans les livres numérisés depuis 2003 sur Google Books. »

Bref on peut rechercher des séquences de un à cinq mots dans le corpus de livres numérisés, couvrant jusqu'à 2008. Le blog de Jean Véronis précise qu'il s'agit du « plus gros corpus linguistique de tous les temps : 500 milliards de mots (...) 4% des livres jamais publiés sur Terre ».

Ce corpus est disponible sous licence Creative Commons Attribution 3.0.

Je me suis livré à une petite recherche sur les termes pour geeks libristes, en anglais et français (liés aux lois et traités sur l'immatériel, au logiciel libre, etc.). Le plus simple est encore d'aller regarder les graphes obtenus.

Aller plus loin

Évolution de quelques termes dans la littérature (enrichi en graphes) (60 clics)
OWNI : L’interprétation des graphiques produits par Ngram View (27 clics)
Blog de J. Véronis : Google: Le plus grand corpus linguistique de tous les temps (19 clics)
Données brutes du corpus Google (CC BY 3.0) (28 clics)
À propos du Google Books Ngram Viewer (40 clics)

# TRavaux concernant la langue française

Posté par JGO le 12 janvier 2011 à 11:20. Évalué à 2.

Voir aussi les travaux du labo de linguistique cognitive de Lyon, avec exemples sur l'année 1996-1997
« Un modèle pour l'étude du changement sémantique »
http://dico.isc.cnrs.fr/fr/diachro.html

Vous aurez d'un plugin flash.
- [^] # Re: TRavaux concernant la langue française
  
  Posté par Juba le 12 janvier 2011 à 12:52. Évalué à 1.
  
  Voir aussi les zoulies visualisation d'associations de mots de Chris Harrison :
  
  - http://www.chrisharrison.net/projects/wordassociation/index.(...)
  - http://www.chrisharrison.net/projects/wordspectrum/index.htm(...)
# Quelques recherches intéressantes :

Posté par lejocelyn (site web personnel) le 12 janvier 2011 à 11:52. Évalué à 3.

Concernant l'informatique et le libre :

http://ngrams.googlelabs.com/graph?content=Linux%2C+Microsof(...)

On observe une chute des termes Linux et de Microsoft avec la montée en utilisation du terme Google...

Si on essaie d'observer plus finement :

http://ngrams.googlelabs.com/graph?content=Ubuntu%2CLinux%2C(...)

On voit un déclin dans l'utilisation des termes Linux et Microsoft. Par contre, on voit aussi que des mots comme Ubuntu ou Debian, plus spécialisé, sont davantage employés. Peut-être faut-il relativiser le déclin de l'emploi de certains termes par le fait qu'ils soient remplacés par d'autres termes plus spécialisé. Peut-être ne parle-t-on plus beaucoup de Windows XP mais plus d'XP, de Seven, de Vista. Pareil pour Linux, peut-être parle-t-on plus de Gnu-Linux ... :D enfin d'Ubuntu, de Debian, de Fedora... L'apparition de Google n'est peut-être qu'une coïncidence. Pour vérifier cela, il faudrait avoir accès au corpus... faire des études utilisant le classement automatique des textes, etc.
# Vocabulaire étudié jusqu'ici

Posté par Benoît Sibaud (site web personnel) le 12 janvier 2011 à 11:57. Évalué à 4.

Corpus anglais et français
Termes DADVSI, HADOPI, LOPPSI, ACTA, ACAC, FOSS, FLOSS, DRM, GPL, BSD, ADPIC, TRIPS, LOPSI, DMCA, EUCD, open source, logiciel libre, free software, GNU, Linux, Debian, Ubuntu, Mozilla, Firefox, OpenOffice, LibreOffice, interopérabilité, format ouvert, interoperability, open standard, vote électronique, electronic voting, net neutrality, software patents, logiciel propriétaire, logiciel privateur, vente liée, bundle sale, informatique déloyale, informatique de confiance, treacherous computing, trusted computing, contenu libre, licence libre, creative commons, commons, propriété intellectuelle, intellectual property, copyright, droit d'auteur, instruction publique, éducation nationale, éducation populaire, bien commun, bien public, partage de la connaissance, partage du savoir

Je suis évidemment preneur de remarque/suggestion/correction et encore mieux d'autres sources.
# Résultats intéressants

Posté par MarbolanGos le 12 janvier 2011 à 13:37. Évalué à 1.

Bon c'est pas trop dans le thème de DLFP mais en voyant ça je me suis dit et si on regardait un peu en science. Par exemple le prix Nobel de physique de cette année : le graphène.

On va là : http://ngrams.googlelabs.com/graph?content=graphene&year(...)

On s'aperçoit un truc c'est qu'il y a un pic vers les années 1900. Si on regarde dans New Scientist ils ont publié des informations sur ce matériaux ! Donc pourquoi c'est pas eux qui ont eu le prix ?

Avec cette montée d'informations facilement accessibles on va vraiment pouvoir faire des superbes choses !
- [^] # Re: Résultats intéressants
  
  Posté par MarbolanGos le 12 janvier 2011 à 13:40. Évalué à 1.
  
  Et si je savais lire c'est Science Abstracts et pas New Scientist...
- [^] # Re: Résultats intéressants
  
  Posté par LupusMic (site web personnel, Mastodon) le 12 janvier 2011 à 19:00. Évalué à 1.
  
  Rappelle-nous un peu quand le Nobel a été institué ? :)
  - [^] # Re: Résultats intéressants
    
    Posté par MarbolanGos le 12 janvier 2011 à 19:32. Évalué à 1.
    
    Que je sache on ne donne pas un Nobel forcément à un découverte après Nobel ?
    C'est pour le/les pères fondateur(s) de la "technologie".
    
    Exemple simple : toujours en physique Rontgen a découvert en 1887 (selon wikipedia qui est peut être fiable pour le coup) les Rayons X.
- [^] # Re: Résultats intéressants
  
  Posté par thoasm le 12 janvier 2011 à 22:59. Évalué à 2.
  
  Si ça se trouve c'est un mot qui a déja été employé dans l'histoire mais avec un sens différent ou le même mais de manière fantasmatique et théorique, on peut pas être sur si on a pas le texte.
# la cote

Posté par romi le 12 janvier 2011 à 15:25. Évalué à 2.

on peut même vérifier la cote de popularité des politiques! ;-)
http://ngrams.googlelabs.com/graph?content=sarkozy&year_(...)
- [^] # Re: la cote
  
  Posté par B16F4RV4RD1N le 12 janvier 2011 à 16:51. Évalué à 2.
  
  on va même voir qui va gagner les élections (belle remonté Madame...) :
  
  http://ngrams.googlelabs.com/graph?content=sarkozy%2Croyal%2(...)
  Only wimps use tape backup: real men just upload their important stuff on megaupload, and let the rest of the world ~~mirror~~ link to it
- [^] # Re: la cote
  
  Posté par koxinga le 14 janvier 2011 à 05:41. Évalué à 2.
  
  Je sais que c'est de l'humour, mais pour les gens qui se demandent si vraiment on ne parle pas de notre cher président, leur corpus est sensible à la casse ...
  
  http://ngrams.googlelabs.com/graph?content=Sarkozy&year_(...)
  - [^] # Re: la cote
    
    Posté par romi le 20 janvier 2011 à 01:13. Évalué à 1.
    
    oui, le 's' en minuscule c'était bien de l'humour!-)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.