Corpus Ngram Viewer de Google : évolution des termes utilisés dans la littérature

Posté par  (site web personnel) . Modéré par patrick_g.
Étiquettes : aucune
6
12
jan.
2011
Base de données
L'article « L’interprétation des graphiques produits par Ngram Viewer » m'a donné envie de faire quelques essais avec cet outil. « (...) mis en ligne par Google le 16 décembre dernier. Il permet de visualiser sous forme de graphiques les fréquences d'apparition de suites de mots dans les livres numérisés depuis 2003 sur Google Books. »

Bref on peut rechercher des séquences de un à cinq mots dans le corpus de livres numérisés, couvrant jusqu'à 2008. Le blog de Jean Véronis précise qu'il s'agit du « plus gros corpus linguistique de tous les temps : 500 milliards de mots (...) 4% des livres jamais publiés sur Terre ».

Ce corpus est disponible sous licence Creative Commons Attribution 3.0.

Je me suis livré à une petite recherche sur les termes pour geeks libristes, en anglais et français (liés aux lois et traités sur l'immatériel, au logiciel libre, etc.). Le plus simple est encore d'aller regarder les graphes obtenus.

Aller plus loin

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.