France

Google retrace l'Histoire à travers les mots

Temps de lecture: 2 minutes - Repéré sur Technologies du langage, Etude (payante), Science (inscription gratuite), Le Temps

Google vient d'offrir la possibilité de pouvoir étudier les centaines de milliards de mots utilisés dans des livres depuis des siècles avec sa nouvelle application, Google Ngrams. De quoi s'agit-il exactement? On rentre un ou plusieurs mots, choisit de suivre leur occurence dans un corpus en anglais, français, chinois, russe, espagnol ou allemand, la période qui nous intéresse, et on laisse l'outil faire le reste.

Jean Veronis, qui tient un blog sur les technologies du langage, rapporte que des informaticiens, des lexicographes, des cogniticiens et des biologistes de Google, Harvard et du MIT entre autres, ont pu se servir de ce corpus de 500 milliards de mots –4% des livres jamais publiés sur Terre affirme-t-il–, engrangés au travers de Google Books, pour en tirer une étude:

«Pour lire seulement les textes de l'année 2000 [...], sans s'arrêter pour manger ni pour dormir, il faudrait 80 ans, soit une vie entière, à un être humain. La séquence de lettres du corpus dans sa totalité est 1.000 fois plus longue que notre génome, et si on écrivait le tout sur une ligne, celle-ci ferait 10 fois l'aller-retour de la Terre à la Lune!»

Jean Veronis explique que sur l'application dédiée au grand public, l'ensemble du corpus n'est pas disponible: nous n'avons accès qu'à la liste de mots ou expressions extraits du corpus dans six langues.

Qu'apprend-on en se baladant le long des mots? Que la grammaire évolue («burned» remplace «burnt» à partir de 1860 en anglais), ou encore qu'une corrélation forte existe entre les noms de maladie et les pics d'épidémie. Mais aussi, expliquent les auteurs de l'étude au magazine Science (inscription gratuite), que les livres contiennent «une énorme quantité de matière lexicale obscure»: même après avoir mis de côté les noms propres, plus de la moitié des mots dans la base de données n'apparaissent dans aucun dictionnaire existant!

La base de données permet également de mesurer l'influence culturelle de grandes figures le long des siècles: par exemple, en regardant l'évolution de l'utilisation de «Sigmund Freud» et «Charles Darwin», les auteurs ont vu Freud perdre progressivement du terrain, jusqu'à ce que Darwin soit plus cité que lui à partir de 2005. Une autre chercheuse s'est aperçue que les noms d'artistes et professeurs de la première partie du 20e siècle, dont on savait qu'ils avaient été censurés par les Nazis parce qu'ils étaient juifs ou «dégénérés» n'apparassaient pas dans le corpus de livres allemands pour cette période, alors qu'ils restaient constants dans le corpus en anglais.

Si ce corpus est passionnant pour le grand public, les scientifiques ne sont pas encore sûrs de l'utilité qu'il représentera pour eux, rapporte Le Temps. Une linguiste à l'Université de Birmingham pointe ainsi les limites de l'outil:

«L'arrivée de cette base de données est une étape importante. Mais cela sera insuffisant. Nous, linguistes, avons besoin de savoir de quel type d'ouvrage il s'agit. Et surtout du contexte. Pour l'anglais, il faudrait accéder à des groupes de neuf mots pour faire de la phraséologie ou lever les ambiguïtés de certains termes. Pour le français, il faudrait des ensembles d'au moins treize mots.»

Une nécessité qui reste pour l'instant impossible, vus les problèmes de droit d'auteur auquel est confronté Google Books, et donc par extension Google ngrams. 

Photo: What word are you? / Terry Johnston via Flickr CC License By

cover
-
/
cover

Liste de lecture