Le monde, à portée de mots

Par Denis Delbecq • 17 décembre 2010 à 2:57 • Categorie: A la Une

Cinq cent milliards de mots. C’est ce que contiennent les 5 millions de livres analysés par une équipe scientifique qui présente ses résultats aujourd’hui dans la revue Science. Soit 4% de ce que l’humanité a produit depuis qu’on imprime des livres. Un extrait des 12 millions de livres numérisés par Google depuis 2004. L’équipe, formée principalement de biologistes, mathématiciens et de stastisticiens, a travaillé pendant 3 ans 1/2 pour montrer quelques-unes des fonctions de son outil: évolution des verbes irréguliers en anglais, variation de popularité des noms propres, impact de la censure politique, à l’époque nazie dans les livres allemands, du Mccarthysme aux Etats-Unis, ou lors des événements de Tienanmen dans les ouvrages chinois… Pour en savoir plus sur Culturomics.org, cet outil que Google a mis en ligne il y a quelques heures, je vous invite à vous reporter au papier que je publie dans Le Temps ce matin. Les chercheurs ont choisi ce drôle de mot, culturomique en français, la contraction de culture et de génomique, histoire de rappeler que c’est la course au génome qui nous a appris à fouiller dans des milliards de données.

Evidemment, je ne pouvais pas rester les bras croisés, alors j’ai passé une paire d’heures à jouer avec Culturomics.org, qui permet d’accéder aux mots (et groupes de 2 à 5 mots) contenus dans ces cinq millions et quelques d’ouvrages, publiés entre 1800 et 2008 (les travaux parus dans Science s’arrêtent à 2000). Voici quelques courbes obtenues au prix de superpositions faites à la va-vite. Attention, compte-tenu des caractéristiques de l’outil proposé par Google, il n’est pas possible de lever les ambiguïtés sur les termes. Ainsi, global warming désignera aussi bien le réchauffement climatique que le réchauffement global d’une pièce de métal (global warming of a metal piece), même si on se doute bien que cette dernière expression n’est pas un best-seller. Autre précaution d’usage, certains des corpus n’étaient pas encore complets cette nuit.

Quelques mots sur le réchauffement climatique

Si les proportions entre les deux courbes (corpus français et anglais) ne sont pas respectées —l’échelle verticale est fausse—, on voit bien que la France, ou du moins les francophones, ont un sacré métro de retard, puisque la prise de conscience du phénomène de global warming s’est faite en anglais près de vingt ans avant le français.

d'après Culturomics.org

d'après Culturomics.org

Quelques mots clefs sur l’énergie, dans le corpus de mots anglais.

On s’aperçoit qu’il y a eu un véritable boom autour de 1980, et qu’à cette époque du moins, le solaire avait le vent en poupe dans les livres. (il ne s’agit pas de journaux)

d'après Culturomics.org

d'après Culturomics.org

Quelques mots sur l’amiante (comparaison français et anglais)

J’ai superposé ici les courbes obtenues pour le mot amiante dans le corpus français, et asbestos dans le corpus anglais. Les proportions amplitudes entre les deux ne sont pas respectées. Mais on voit bien que depuis le milieu des années quatre-vingt dix, le mot est redevenu à la mode dans les ouvrages en français, et pour cause, tandis qu’il perdait du terrain dans les ouvrages anglophones.

d'après Culturomics.org

d'après Culturomics.org

Quelques mots sur le paludisme et la malaria, dans le corpus français

Ici, les proportions sont respectées, puisqu’il s’agit dans les deux cas du corpus français. Pour les mots malaria et paludisme. On voit que cette calamité intéresse moins aujourd’hui que dans la première partie du XXe siècle. Au passage, on notera une reprise depuis 2000 pour le mot paludisme, tandis que malaria ne fait plus recette.

d'après Culturomics.org

d'après Culturomics.org

Voilà, je vous laisse jouer avec cet objet. Encore une fois, pour savoir comment les chercheurs ont travaillé et ce qu’en pensent les linguistes et lexicographes, vous pouvez toujours lire ma prose dans Le Temps. L’article devrait être en accès libre quand vous vous réveillerez.

• Envoyer par email •  Partager sur Facebook

Tags: , , , , , , , ,