Life

Newtown, Sandy: un algorithme pour séparer le vrai du faux sur Twitter?

Will Oremus, mis à jour le 17.12.2012 à 14 h 17

Des chercheurs construisent des algorithmes qui pourraient démêler les vraies informations des fausses rumeurs sur le réseau social, un point crucial dans des situations d'urgence comme la fusillade du Connecticut.

Une officière de la police de l'Etat du Connecticut près de la compagnie des pompiers et premiers secours bénévoles de Sandy Hook, près de l'école élémentaire de Sandy Hook, le 14 décembre 2012. REUTERS/Joshua Lott

Une officière de la police de l'Etat du Connecticut près de la compagnie des pompiers et premiers secours bénévoles de Sandy Hook, près de l'école élémentaire de Sandy Hook, le 14 décembre 2012. REUTERS/Joshua Lott

Quand quelque chose d’important se produit –le Printemps arabe, l’ouragan Sandy, la fusillade horrible de l’école élémentaire dans le Connecticut vendredi– Twitter est la source d’informations la plus rapide, la plus complète, et la moins fiable du monde.

Si vous étiez sur le site de microblogging ce vendredi, vous avez fait partie des premiers à lire le bilan meurtrier, à regarder les réactions accablées, et à rentrer dans les détails personnels de l’homme que les médias ont initialement identifié comme le tueur.

Mais il y a aussi de fortes chances que vous vous soyez laissé emporter par une des nombreuses contre-vérités qui se baladaient, comme la lettre qu’une des jeunes victimes était censée avoir écrit à sa mère avant que le tueur n’entre dans la classe. Et, bien sûr, toutes ces pages de réseaux sociaux qui circulaient appartenaient en fait à des gens innocents, y compris au frère du véritable suspect.

Les hoax et les fausses identités ne paraissent pas bien importantes à côté de la véritable tragédie de vendredi, bien sûr. Les victimes et celui qui est désigné comme le tueur étaient déjà morts, et rien de ce qu’on pouvait écrire sur les réseaux sociaux n’allait changer quoi que ce soit. Mais ça a causé une confusion et une douleur qui n’étaient pas nécessaires.

Un «four auto-nettoyant» pas assez efficace

Et lors d’évènements qui se déroulent en continu, comme des désastres naturels, les enjeux de la désinformation sur Twitter peuvent être beaucoup plus élevés. Pendant Sandy, par exemple, des tweets ont aidé les secours à trouver où envoyer des ressources directement. D’autres ont provoqué une panique déplacée, comme celui qui assurait que l’hôpital de Coney Island était en feu. Et quelques-uns étaient carrément dangereux, comme le tweet qui assurait que les gens devaient arrêter de composer le 911 [le numéro d’urgence américain, NDT] parce que les lignes étaient surchargées.

Une qualité rédemptrice de Twitter est la relative vitesse à laquelle ses utilisateurs réussissent à sentir, et à démentir, les fausses rumeurs qui circulent le plus largement. Vendredi, par exemple, on parlait sur Twitter du fait que les médias montraient du doigt le mauvais suspect alors que les chaînes télé continuaient de répéter les fausses informations.

Sasha Frere-Jones du New Yorker a qualifié le site de «four auto-nettoyant». Après Sandy, John Hermann de Buzzfeed a évoqué une «machine de vérité». Mais ces métaphores peuvent induire en erreur. Garder Twitter propre prend du temps et des efforts humains et, dans l’intérim, les saletés peuvent poser de sérieux problèmes. Les Andy Carvin, Alexis Madrigal et Tom Phillips [des journalistes spécialisés dans les nouvelles technologies, NDT] ne peuvent pas tout faire. Souvent, les fausses informations se répandent plus loin et plus vite que leurs corrections.

Un problème pour les premiers secours

Pour l’utilisateur lambda de Twitter, ce n’est qu’un piège qu’il faut garder en tête. Mais pour les secours ou les travailleurs humanitaires qui voudraient utiliser le site pour guider leurs efforts, c’est un obstacle potentiellement meurtrier. «La vérification est l’un des plus grands défis de l’utilisation des médias sociaux dans l’espace humanitaire», estime Patrick Meier, du Qatar Foundation Computing Research Institutre, un expert de l’utilisation de la technologie dans les situations de crise.

Cette antipathie commence à fondre au fur et à mesure que Twitter démontre son utilité aux équipes d’aides dans des évènements qui évoluent vite, comme le tremblement de terre d’Haïti, pendant lesquels les informations fiables sont rares. «Avant le tremblement de terre en Haïti, si vous parliez de réseaux sociaux à mes confrères à l’ONU, c’était voué à l’échec», dit Meier. Reste la peur que s’appuyer sur Twitter aura pour résultat des erreurs coûteuses. Leur solution: bâtir une meilleure machine de vérité.

J’ai parlé avec Meier la semaine dernière d’une nouvelle recherche académique qui observe le potentiel d’algorithmes d’apprentissage automatique pour juger de la crédibilité d’informations tweetées pendant un désastre.

L’idée, c’est que ça prend du temps et des ressources précieux aux humains pour vérifier les nombreuses infos qui envahissent Twitter pendant un désastre, mais que les ordinateurs pourraient un jour offrir rapidement et automatiquement au moins une première évaluation de leur fiabilité.

En clair, dit Meier en plaisantant: «Nous essayons de construire des Andy Carvin», le stratège Internet de la radio NPR, qui est devenu une célébrité sur Twitter après ses efforts surhumains pour relayer et vérifier des informations de dernière minute pendant le Printemps arabe.

Les fausses rumeurs, pleines de «?» et de «!»

Un article de 2010 de Yahoo Research a analysé les tweets du tremblement de terre d’amplitude 8,8 au Chili de cette année-là et s’est aperçu que les véritables informations –comme le fait que l’aéroport de Santiago avait fermé, qu’un supermarché de Concepcion était dévalisé, qu’un tsunami avait frappé la ville côtière d’Iloca– se propageaient différemment des mensonges, comme la rumeur de la mort du chanteur Ricardo Arjona, ou celle d’un avertissement au tsunami pour Valparaison.

Une des différences-clés peut paraître évidente, mais reste assez utile: les fausses rumeurs avaient beaucoup plus de chance d’être tweetées avec un point d’interrogation ou une autre indication de doute ou de démenti.

A partir de ce travail, les auteurs de l’étude ont développé un classificateur à apprentissage automatique qui utilise 16 traits pour jauger de la fiabilité de tweets informatifs. Parmi les traits qui rendent une information plus crédible:

  • Les tweets sur cette information ont tendance à être plus longs et à inclure des URL.
  • Les gens qui la tweetent ont davantage d’abonnés.
  • Les tweets qui la concernent ont un ton plus négatif que positif.
  • Les tweets qui en parlent n’incluent pas de points d’interrogations, de points d’exclamations, ni de pronoms de la première ou la troisième personne.

Plusieurs de ces découvertes ont trouvé un écho dans une autre étude récente menée par des chercheurs de l’India Institute of Information Technology. Ils ont aussi trouvé que les tweets crédibles ont moins tendance à contenir des jurons et beaucoup plus tendance à contenir des emoticons qui froncent les sourcils que des qui sourient.

Un algorithme pour une première opinion sur la véracité d'un tweet

Dans une nouvelle étude, à paraître le mois prochain dans le journal Internet Research, les auteurs de l’étude sur le tremblement de terre au Chili –Carlos Castillo, Marcelo Mendoza, et Barbara Poblete– testent leur algorithme sur de nouveaux jeux de données et trouvent qu’il marche plutôt bien.

D’après Meier, leur classificateur à apprentissage automatique avait une ASC, ou «aire sous la courbe», de 0,86. Ça veut dire que, quand on lui présentait un faux tweet et un vrai tweet aléatoires, le classificateur estimait que le vrai tweet était plus crédible 86% du temps (une ASC de 1 est parfaite, une ASC de 0,5 n’est pas meilleure que le hasard).

D’après moi, un utilisateur humain de Twitter qui s’y connaît et qui a de l’expérience pourrait faire mieux que ça dans la plupart des circonstances. Et, bien sûr, si un algorithme donné est très partagé, les trolls dévoués comme le méchant de l’ouragan Sandy @ComfortablySmug («confortablement sûr de soi») pourraient trouver des façons de le déjouer.

Mais un algorithme peut potentiellement travailler beaucoup plus rapidement qu’un humain, et au fur et à mesure qu’il s’améliore, il pourrait devenir une «première opinion» inestimable pour signaler des informations sur Twitter qui pourraient être fausses.

Meier estime que ces tweets signalés pourraient peut-être ensuite être postés sur une plateforme invitant des humains à les juger et au final à les vérifier ou les dénoncer pour de bon. Même ce système ne pourrait pas entièrement empêcher les mensonges sur Twitter de se propager ou d’induire en erreur les gens. Mais leurs instigateurs pourraient se sentir un peu moins confortables et un peu moins contents d’eux.

Will Oremus

Traduit par Cécile Dehesdin

Will Oremus
Will Oremus (151 articles)
Journaliste
En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies pour réaliser des statistiques de visites, vous proposer des publicités adaptées à vos centres d’intérêt et nous suivre sur les réseaux sociaux. > Paramétrer > J'accepte