Le monde, à portée de mots

Cinq cent milliards de mots. C’est ce que contiennent les 5 millions de livres analysés par une équipe scientifique qui présente ses résultats aujourd’hui dans la revue Science. Soit 4% de ce que l’humanité a produit depuis qu’on imprime des livres. Un extrait des 12 millions de livres numérisés par Google depuis 2004. L’équipe, formée principalement de biologistes, mathématiciens et de stastisticiens, a travaillé pendant 3 ans 1/2 pour montrer quelques-unes des fonctions de son outil: évolution des verbes irréguliers en anglais, variation de popularité des noms propres, impact de la censure politique, à l’époque nazie dans les livres allemands, du Mccarthysme aux Etats-Unis, ou lors des événements de Tienanmen dans les ouvrages chinois… Pour en savoir plus sur Culturomics.org, cet outil que Google a mis en ligne il y a quelques heures, je vous invite à vous reporter au papier que je publie dans Le Temps ce matin. Les chercheurs ont choisi ce drôle de mot, culturomique en français, la contraction de culture et de génomique, histoire de rappeler que c’est la course au génome qui nous a appris à fouiller dans des milliards de données.

Evidemment, je ne pouvais pas rester les bras croisés, alors j’ai passé une paire d’heures à jouer avec Culturomics.org, qui permet d’accéder aux mots (et groupes de 2 à 5 mots) contenus dans ces cinq millions et quelques d’ouvrages, publiés entre 1800 et 2008 (les travaux parus dans Science s’arrêtent à 2000). Voici quelques courbes obtenues au prix de superpositions faites à la va-vite. Attention, compte-tenu des caractéristiques de l’outil proposé par Google, il n’est pas possible de lever les ambiguïtés sur les termes. Ainsi, global warming désignera aussi bien le réchauffement climatique que le réchauffement global d’une pièce de métal (global warming of a metal piece), même si on se doute bien que cette dernière expression n’est pas un best-seller. Autre précaution d’usage, certains des corpus n’étaient pas encore complets cette nuit.

Quelques mots sur le réchauffement climatique

Si les proportions entre les deux courbes (corpus français et anglais) ne sont pas respectées —l’échelle verticale est fausse—, on voit bien que la France, ou du moins les francophones, ont un sacré métro de retard, puisque la prise de conscience du phénomène de global warming s’est faite en anglais près de vingt ans avant le français.

d'après Culturomics.org
d'après Culturomics.org

Quelques mots clefs sur l’énergie, dans le corpus de mots anglais.

On s’aperçoit qu’il y a eu un véritable boom autour de 1980, et qu’à cette époque du moins, le solaire avait le vent en poupe dans les livres. (il ne s’agit pas de journaux)

d'après Culturomics.org
d'après Culturomics.org

Quelques mots sur l’amiante (comparaison français et anglais)

J’ai superposé ici les courbes obtenues pour le mot amiante dans le corpus français, et asbestos dans le corpus anglais. Les proportions amplitudes entre les deux ne sont pas respectées. Mais on voit bien que depuis le milieu des années quatre-vingt dix, le mot est redevenu à la mode dans les ouvrages en français, et pour cause, tandis qu’il perdait du terrain dans les ouvrages anglophones.

d'après Culturomics.org
d'après Culturomics.org

Quelques mots sur le paludisme et la malaria, dans le corpus français

Ici, les proportions sont respectées, puisqu’il s’agit dans les deux cas du corpus français. Pour les mots malaria et paludisme. On voit que cette calamité intéresse moins aujourd’hui que dans la première partie du XXe siècle. Au passage, on notera une reprise depuis 2000 pour le mot paludisme, tandis que malaria ne fait plus recette.

d'après Culturomics.org
d'après Culturomics.org

Voilà, je vous laisse jouer avec cet objet. Encore une fois, pour savoir comment les chercheurs ont travaillé et ce qu’en pensent les linguistes et lexicographes, vous pouvez toujours lire ma prose dans Le Temps. L’article devrait être en accès libre quand vous vous réveillerez.

16 commentaires


  1. Lexicographes et linguistes ont raisons d’être prudents sur les interprétations à donner, ou sur l’utilité et les insuffisances de la banque de données de Google. Il ne s’agit que d’un simple indicateur quantitatif ou calendaire utile, sans plus, mais pas ou peu qualitatif. Une bonne pub pour Google….

    Il y a aussi une autre dimension qui n’apparait pas dans l’article et qui me semble essentielle, celle du sens des mots. Au cours d’une formation, un linguiste m’avait expliqué un paradoxe : au delà de leur définition lexicale, les mots n’ont pas de sens, dans la mesure où, pour un même mot ou une même idée, chacun y met son propre sens, en fonction de son histoire, de ses croyances, de ses connaissances, de son approche (scientifique, philosophique, littéraire ou poétique), etc.

    1. Author

      Cette question du sens est d’autant plus marquée dans les ouvrages littéraires (et en particulier dans la fiction) où chaque auteur a sa propre écriture, m’ont expliqué mes interlocuteurs. C’est moins vrai dans les ouvrages spécialises, les manuels, etc.

      1. Tout à fait d’accord, un scientifique essaie de donner un sens unique à ces mots, alors que c’est le contraire pour un poète (pour ne citer que 2 extrêmes).
        Mais, en plus, ce que m’expliquait le linguiste, c’est qu’au delà de l’intention de l’auteur, il y a une sorte de filtre personnel pour celui qui lit ou écoute. Chacun, en fonction de son histoire, de ses croyances, etc. y met son propre sens. Cela explique d’ailleurs beaucoup d’incompréhensions et de quiproquos qui ne sont pas forcément volontaires.

  2. Bonjour,

    Il y a d’autres articles sur Internet qui mettent en garde contre une étude linguistique des livres numérisés par Google. Comme il s’agit d’un processus hautement automatisé, il y a pas mal d’erreurs (ou il y avait pas mal d’erreurs). Elles sont corrigées au fur et à mesure de leur découverte, mais cela pousse à la prudence. L’exemple typique était le fait qu’une recherche dans la base avait trouvé des centaines de livres mentionnant Internet, mais avec une date de publication antérieure à 1950…

    Si c’est un bel outil, les mesures de précaution sur tout ce qui est nouveau s’imposent.


  3. Dans la même idée, pour ne revenir qu’à la première courbe, il y a une prudence d’interprétation importante à faire entre « utilisation d’une expression linguistique » et « existence du concept ».Il faudrait y ajouter toutes les formulations équivalentes avant l’apparition de « réchauffement climatique », comme « réchauffement global », rréchauffement planétaire », « réchauffement terrestre », …

    Il me semble donc qu’en déduire un décalage dans la prise de conscience est un raccourci un peu rapide.

  4. Toutes précautions prises, certains résultats sont quand même assez intéressants. En particulier, les courbes pour «écologie» et «ecology» en français et en anglais sont similaires avec une progression forte depuis le milieu des années 1960 puis un recul, ou un plateau pour le terme anglais, dans les années 80, avant une reprise dans les années 1990… La courbe anglaise doit être lissée par la contribution de la littérature scientifique moins sensible aux effets de mode intellectuels et idéologiques. Rien d’étonnant, mais une visualisation sans appel de l’impact de la vague conservatrice et libérale sous Thatcher, Reagan et Mitterrand. Nous en payons encore aujourd’hui le prix. A noter aussi la courbe effondrement qui n’en finit pas de monter…

      1. Je parie que c’est de l’humour de polytechnicien…

      1. C’est peut-être la bible du GIEC pour estimer le futur climat.

        Le GIEC aussi serait amusant s’il n’en profitait pas pour essayer de faire dépenser des millards d’euros (ou dollars) en préventif contre un éventuel RCA dont personne n’est sûr, sauf à « croire » au sens religieux du terme.

        Le  » C à dire » d’hier sur la 5 avec Galam et Jouzel était trés intéressant.

      2. « C’est peut-être la bible du GIEC pour estimer le futur climat. »

        Ça c’est drôle ! Voyez quand vous voulez.

        « Le C à dire d’hier sur la 5 avec Galam et Jouzel était trés intéressant. »

        Plutôt trouvé chez Calvi, C’est dans l’air. Ça fait longtemps que j’en ai pas vu une, mais les émissions de Calvi sont rarement intéressante.

      3. GML @

        Là c’est vous qui êtes dans le « religieux », si vous faites la synthèse des éléments scientifiques allant dans le sens de la responsabilité anthropique dans le réchauffement et les éléments exonérant l »homme de cette responsabilité, il n’y a pas photo.

        Maintenant il ne faut pas trop écouter le discours de certains écolosintégristes qui sont tout autant à coté de la plaque. Jouzel a d’ailleurs fait une excellente réflexion sur l’efficacité de l’éolien et du solaire.

        J’ai « adoré » le commentaire de Galam sur le non fondé de la température moyenne, même des sceptiques comme Courtillot ou Spencer ou encore Lindzen s’appuient dessus.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.