Monde

Dans leur lutte contre le terrorisme, les Etats-Unis ont un problème: l'anglais. Le big data peut les aider

Washington s'appuie sur des agents qui ne lisent quasiment que des journaux anglophones pour se tenir au courant de ce qu'il se passe dans le monde.

Un homme lit le journal en Tunisie en 2013 après l'assassinat de l'opposant Chokri Belaïd. REUTERS/Zoubeir Souissi
Un homme lit le journal en Tunisie en 2013 après l'assassinat de l'opposant Chokri Belaïd. REUTERS/Zoubeir Souissi

Temps de lecture: 10 minutes

En février, la Maison Blanche organisait le CVE, un sommet de trois jours visant à «débattre des solutions concrètes» que les États-Unis et leurs alliés sont susceptibles de mettre en œuvre pour contrer l'extrémisme violent de par le monde. Mais telle est la triste réalité: malgré 75 ans de surveillance médiatique internationale, et des centaines de millions de dollars déboursés pour ces seules dernières années, la connaissance qu'a le gouvernement américain de l'extrémisme violent et de ses tendances lui vient, en très grande majorité, de la lecture de journaux anglophones et occidentaux.

Les langues locales ne sont pas prises en compte

Parallèlement, ses services de renseignement aspirent des tonnes de communications suspectes, mais leur stock de données n'a qu'une utilité réduite: difficile de ne pas lever les yeux au ciel en lisant le rapport d'un analyste assigné au groupe terroriste pakistanais Lashkar-e-Toiba qui se plaint que «la plupart [des communications interceptées] sont en arabe ou en farsi, donc je ne peux pas en faire grand-chose».

Comment Washington peut espérer contrer l'extrémisme violent quand les analystes assignés à la surveillance des communications d'extrémistes ne comprennent pas un traître mot de ce qu'ils lisent?

En ouverture du sommet CVE, une présentation de William Braniff permettait de se faire une vue générale des tendances en matière de terrorisme international grâce à l'analyse de la Global Terrorism Database (GTD). Cette base de données, conçue par l'Université du Maryland et subventionnée par le Département américain de la Défense, est très souvent citée dans les rapports gouvernementaux et autres articles de presse, que ce soit dans le New York Times, le Washington Post ou encore sur CNN. Pour autant, si la GTD est largement considérée comme LA mine d'informations sur le terrorisme international, elle repose en réalité quasi exclusivement sur des sources médiatiques anglophones.

La plupart [des communications interceptées] sont en arabe ou en farsi, donc je ne peux pas en faire grand-chose

Un analyste assigné à un groupe terroriste pakistanais

Quand on voit le Los Angeles Times cité parmi les sources primaires lorsqu'il est question d'un enlèvement attribué à l’État islamique à Al-Bab, en Syrie, ou le Chicago Tribune pour une attaque à la grenade sur un marché de Rajuri, en Inde, il y a de quoi douter de l'exhaustivité de la GTD.

De fait, selon la GTD, sur les dix pays ayant subi le plus grand nombre d'attentats terroristes en 2013 (ses données les plus récentes), seul un a l'anglais parmi ses langues principales (le Nigeria) et deux de plus l'intègrent dans leurs langues officielles (l'Inde et les Philippines). Globalement, ces trois pays anglophones ne représentent que 17% des attentats et 16% des victimes du terrorisme en 2013.

Difficile de comprendre pourquoi, dans des pays où ont lieu 83% des attaques terroristes mondiales, la GTD privilégie les médias anglophones au lieu de ceux écrits et diffusés en langues locales.

Mais le cas de la GTD est loin d'être isolé: cette focalisation sur les sources anglophones est endémique à Washington et à ses tentatives de surveiller et de comprendre le monde.

Le programme phare de la Defense Advanced Research Project Agency (Darpa), le Worldwide Integrated Crisis Early Warning System (W-ICEWS) et ses 125 millions de dollars, cartographie l'instabilité du monde en se fondant quasi exclusivement sur des sources médiatiques anglophones, ainsi que sur une infime proportion de traductions effectuées de main humaine. Son degré de fiabilité ne dépasse pas les 25%. Les quelques contenus traduits intégrés dans le W-ICEWS proviennent principalement de l'Open Source Center, établissement américain qui surveille et traduit des sources issues des réseaux sociaux et des médias internationaux.

Pour autant, même quand le directeur de la CIA John Brennan annonce ses intentions d'étendre l'agence, l'Open Source Center tire toujours pratiquement la moitié de ses contenus de médias anglophones et se fonde principalement sur des agences de presse européennes pour couvrir l'Afrique, quand sa couverture de l'Amérique latine est réduite aux portions congrues.

La traduction automatique, un bon outil

En réalité, les sources qu'il scrute en Russie dépassent, en quantité, celles d'Espagne, du Portugal et de tout le continent sud-américain combinés.

Sa couverture linguistique de régions où les risques terroristes sont élevés est particulièrement médiocre: en tout, le volume surveillé en bengali (la langue officielle du Bangladesh, que le Global Terrorism Index de 2014 situe à un niveau élevé de risque terroriste) représente, en moyenne, un seul article traduit par semaine ces vingt dernières années.

En deux mois et demi, j'ai créé un système qui peut détecter une actu chaude issue de n'importe quelle région du monde, la traduire et traiter l'information sur la base de 65 langues

 

Il n'y aura jamais assez de traducteurs humains pour surveiller, au quotidien, tous les contenus médiatiques de toutes les langues du monde. C'est là que la traduction automatique, malgré ses imperfections, pourrait offrir une formidable opportunité.

Si la fiabilité de la traduction automatique demeure très basse, la technique est capable d'un calibrage infini et de traiter l'ensemble des médias du monde entier en temps réel. De fait, dans la même semaine où se tenait le CVE, le GDELT Project annonçait le déploiement d'un dispositif de traduction automatique d'une ampleur inédite, capable de traduire en anglais l'ensemble des contenus médiatiques issus des 65 langues qu'il surveille, soit 98,4% des contenus non-anglophones de sa base quotidienne.

En quinze minutes, le GDELT peut détecter une actualité chaude issue de n'importe quelle région du monde, la traduire et traiter l'information de manière à en isoler les événements, les chiffres, les propos, les personnes, les organisations, les lieux, les thèmes, les émotions, l'iconographie, les vidéos et les contenus des réseaux sociaux qui s'y rapportent.

Grâce au potentiel quasiment infini du Google Cloud, j'ai pu concevoir tout ce système en deux mois et demi, en y consacrant mes soirées et mes week-ends.

La possibilité de compulser 65 langues, couplée avec un inventaire médiatique international des plus précis, signifie que –contrairement au Pentagone– le GDELT est capable de naviguer dans les langues du monde en temps réel et n'est pas limité au cadre restreint des contenus anglophones pour comprendre ce qui se passe aux quatre coins de la planète.

Pour certaines langues, comme le russe ou l'estonien, le GDELT se sert de schémas linguistiques conçus par les experts les plus réputés en leur domaine et peut atteindre une fiabilité a minima équivalente (si ce n'est supérieure) à Google Translate. Pour d'autres langues, notamment celles où les ressources informatisées sont limitées, à l'instar du swahili, il est capable de reconnaître des lieux, des personnalités, des organisations, des thèmes et des événements clés, mais est moins fiable quant à la nuance des propos ou le sarcasme –même s'il est conçu pour apprendre sur le tas grâce à l'apport des bases de données ouvertes, comme l'information multilingue que propose Wikipédia par exemple.

La traduction automatique ne peut encore concurrencer la fiabilité de la traduction humaine, mais au pire du pire, le GDELT peut détecter qu'un article parle d'une manifestation violente dans telle ville du monde et identifier les groupes politiques, ethniques, sociaux et religieux en présence, ainsi que leurs dirigeants –et transmettre l'information à un analyste humain qui pourra faire un tri encore plus précis. Après tout, les erreurs d'une traduction automatique peuvent être corrigées a posteriori, mais il n'est pas possible de corriger ou de trier ce qui n'a jamais été détecté.

L'approche multilingue est essentielle

En outre, avec l'amélioration constante et rapide de la traduction automatique, et avec un accès de plus en plus important à un nombre toujours plus conséquent de langues, les algorithmes du GDELT seront régulièrement amendés. L'objectif de la traduction en masse permise par le GDELT est de démontrer la faisabilité d'une traduction en temps réel de sources médiatiques internationales, et d'offrir un creuset expérimental susceptible de profiter à d'autres technologies et approches de la traduction de masse.

La carte ci-dessous montre combien une approche multilingue est essentielle. Toutes les sources inclues dans le pool du GDELT ont été scannées entre le 19 février et le 1er mars pour y isoler des mentions géographiques relatives au Yémen. Les mentions issues de médias anglophones sont représentées en bleu, tandis que celles issues des 65 autres langues reconnues par le GDELT sont en rouge. La grosseur des points dépend de la quantité de mentions. 

Les sources anglophones mentionnant le Yémen se focalisent principalement sur de petits ensembles de lieux situés autour des grandes villes, une tendance générale des médias anglophones quand il s'agit du monde non-occidental, tandis que les médias d'autres langues (et notamment l'arabe) s'intéressent à une plus grande diversité de lieux disséminés dans tout le pays. Pour comprendre ce qui se passe au Yémen, au-delà des grandes villes que sont Sanaa ou Aden, il faut à l'évidence se tourner vers la presse locale.

En outre, la contextualisation émotionnelle et thématique des événements, tels que les présentent la presse locale, peut offrir un éclairage crucial: en ce qui concerne la Russie, si les gouvernements occidentaux font de Moscou l'agresseur en Ukraine, un récent sondage montre que 81% de la population a une opinion négative des États-Unis, le chiffre le plus élevé depuis la chute de l'URSS, tandis que Vladimir Poutine est crédité de 86% d'opinions positives. En grande partie, cet assentiment relève d'une gestion au cordeau de l'environnement médiatique local, et comprendre les fondements de la popularité croissante de Poutine –malgré les sanctions dévastatrices pour l'économie russe– demande d'en passer par une compréhension précise de la psyché russe.

De même, les débats récents sur les manières de contrer le terrorisme se sont souvent focalisés sur les «causes» de la radicalisation des individus, les «racines du mal» qui les poussent à rejoindre des groupes extrémistes.

Il n'y a pas de cause unique à l'extrémisme

En février, lors d'une malheureuse interview sur MSNBC (à l'origine du hashtag ironique #JobsForISIS sur Twitter), Marie Harf, la porte-parole du Département d’État américain a mentionné le «manque d’opportunités professionnelles», une «cause» de la radicalisation que reprendra à son compte le président américain lors d'un discours prononcé la même semaine.

Mais comme a pu le préciser ensuite Peter Bergen, responsable de l'Asie du Sud pour Foreign Policy et chroniqueur pour CNN, beaucoup d'extrémistes ayant fait les gros titres de la presse internationale, d'Oussama ben Laden à Umar Farouk Abdulmutallab, en passant par Mohamed Atta ou «John le djihadiste», sont issus de familles plutôt privilégiées, pas de la misère crasse. Pour autant, Bergen admet que les petites mains de l’État islamique sont issues de milieux plus modestes et, comme le précise Adam Taylor dans le Washington Post, être issu des classes moyennes n'équivaut pas à un sentiment d'opportunités infinies.

La vérité, c'est qu'il n'existe pas de «cause» unique à l'extrémisme. De la même manière qu'il n'y a pas d'avis unique sur l'avortement ou la régulation des armes à feu aux États-Unis, nous devons admettre et comprendre l'existence de visions du monde bien plus fragmentées et nuancées. Certains rejoignent effectivement les rangs de l’État islamique parce qu'ils ont un sentiment de perspectives bouchées, quand d'autres le font par conviction religieuse. Admettre l'existence d'un continuum de motivations permet la mise en œuvre de solutions complexes et multiples, qui transcendent la simplification politicienne et ciblent précisément des logiques propres à telle ou telle culture.

Compte-tenu de l'énorme complexité des cultures mondiales, comment faire pour que le gouvernement américain puisse, a minima, initier une interaction avec les opinions et les croyances associées à des risques extrémistes élevés?

Dans un chapitre de notre rapport sur les mégalopoles publié en avril 2014, et préfacé par le Lt. Gen. Michael Flynn, Charles Ehlschlaeger et moi-même remarquions que les barrières culturelles et linguistiques représentaient les premiers obstacles à la compréhension du monde en développement, «souvent caractérisé par de complexes affiliations et interconnections tribales, ethniques, linguistiques, religieuses, familiales et sociétales» qui sont «étrangères» à la plupart des analystes occidentaux.

Cartographier l'empreinte géographique d'un sujet

En résumé, être à peu près capable de lire la langue d'un groupe extrémiste n'offre pas automatiquement la nuance nécessaire à la compréhension de la vision du monde d'un tel groupe

Le big data offre l'alléchante possibilité de sortir de nos ornières anglophones et d'écouter le monde entier en ajoutant du contexte et de la compréhension

 

Dans le numéro de septembre-octobre 2014 de la revue D-Lib, en collaboration avec Timothy Perkins et Chris Rewerts de l'U.S. Army Corps of Engineers, nous avons démontré qu'il était possible d'utiliser le big data pour construire un indice socio-culturel relatif à une région d'importance pour le CVE –soit l'Afrique et le Moyen-Orient.

Plus de 21 milliards de mots issus de la littérature universitaire sur l'Afrique, l'intégralité de JSTOR, tous les rapports non-classifiés ou déclassifiés de l'U.S. Defense Technical Information Center (DTIC) et 1,6 milliard de PDF archivés par l'Internet Archive ont été soumis à un traitement informatique visant à identifier toutes les mentions de groupes sociaux, religieux et ethniques; de lieux; de thèmes majoritaires et de citations. L'indice peut servir à cartographier l'empreinte géographique d'un sujet, lister les griefs thématiques les plus souvent associés à un conflit entre des groupes ethniques dans une zone donnée et même identifier les spécialistes les plus fréquemment cités sur telle ou telle question. 

Par exemple, cartographier tous les lieux associés à des questions de sécurité alimentaire ou de guerre de l'eau génère la carte ci-dessous, soit un prototype de base sur lequel un analyste peut zoomer et, concernant n'importe quelle question, trouver instantanément les ressources universitaires et gouvernementales les plus pertinentes pour son domaine de recherche.

De même, plus de 11.000 rapports issus d'Amnesty International, d'Human Rights Watch, du Tribunal pénal international, des Nations unies et d'autres organisations similaires ont été analysés par le même système et ont permis de générer un nouvel indice des violations des droits de l'homme dans le monde.

Au lieu de chercher simplement des mots-clés sur Internet, cette interface permet une cartographie intelligente des relations et des tendances entre différents groupes, forces motrices, exactions et localisations géographiques.

Quand on les combine à l'indice universitaire mentionné ci-dessus, et à l'indice médiatique du GDELT, il est possible de pister en quasi temps réel la propagation des idéologies, des croyances et des actions extrémistes, mais aussi des dynamiques sous-jacentes qui les véhiculent et les stimulent.

L'ère numérique nous a rendu exceptionnellement bons en collecte d'informations, mais ce faisant, nous privilégions l'archivage à l'analyse.

De temps en temps, il faut quitter l'ordinateur pour mieux voir le monde, mais en matière de lutte contre l'extrémisme mondialisé, le big data offre l'alléchante possibilité de sortir de nos ornières anglophones et d'écouter le monde entier, de transcender les barrières linguistiques et d'atteindre en profondeur les conséquences et la résonance émotionnelle des événements en ajoutant du contexte et de la compréhension.

Si je peux, en deux mois et demi, concevoir une machine de traduction intégrant 65 langues –et mettre au point en un an un indice portant sur un demi-siècle de connaissance culturelle et des dizaines de millions de mots– de quoi pourrait être capable le gouvernement américain avec 125 millions de dollars s'il écoutait vraiment le monde, et ne se contentait pas de lire la presse américaine?

cover
-
/
cover

Liste de lecture