Base de données Corpus Ngram Viewer de Google : évolution des termes utilisés dans la littérature

Posté par (page perso) . Modéré par patrick_g.
Tags :
6
12
jan.
2011
Base de données
L'article « L’interprétation des graphiques produits par Ngram Viewer » m'a donné envie de faire quelques essais avec cet outil. « (...) mis en ligne par Google le 16 décembre dernier. Il permet de visualiser sous forme de graphiques les fréquences d'apparition de suites de mots dans les livres numérisés depuis 2003 sur Google Books. »

Bref on peut rechercher des séquences de un à cinq mots dans le corpus de livres numérisés, couvrant jusqu'à 2008. Le blog de Jean Véronis précise qu'il s'agit du « plus gros corpus linguistique de tous les temps : 500 milliards de mots (...) 4% des livres jamais publiés sur Terre ».

Ce corpus est disponible sous licence Creative Commons Attribution 3.0.

Je me suis livré à une petite recherche sur les termes pour geeks libristes, en anglais et français (liés aux lois et traités sur l'immatériel, au logiciel libre, etc.). Le plus simple est encore d'aller regarder les graphes obtenus.
(13 commentaires).

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.