vendredi 17 décembre 2010

Gadget du jour : Books Ngram Viewer



Ci-dessus un graphique montrant la fréquence des mots Osaka, Kyoto, Kansai, Kobe et Wakayama dans un corpus de livres en français (je ne sais pas combien ni lesquels), tel que le service de Google Books Ngram Viewer nous l’offre.

Pour plus d'informations sur cet outil d'analyse linguistique, voir http://ngrams.googlelabs.com/info ou le blog "Technologies du langage".

Evidemment, il y a des perturbations comme l’expression «protocole de Kyoto » qui explique la hausse vertigineuse des dernières années, ou comme le joueur de basket-ball Kobe Bryant. Par contre, je m’attendais à ce que l'impact de l’exposition internationale d’Osaka de 1970 soit plus visible.

PS du 19: le meilleur article sur le sujet, selon moi, est ici. Voici un extrait, sur le nombre de mots pris en compte:
Au total, la base de données comprend 361 milliards de mots anglais, 45 milliards de mots français et espagnols, 37 milliards de mots allemands ainsi que des milliards de mots russes, chinois et hébreux. Du jamais vu, selon les linguistes.

Aucun commentaire:

Enregistrer un commentaire