Science & santé

Santé et Big Data: l’échec de Google Flu® ne doit pas cacher la forêt

Jean-Yves Nau, mis à jour le 01.07.2016 à 12 h 33

Les algorithmes et l’analyse des données massives ne sont pas une panacée dans la lutte contre les épidémies. Pour autant, ils permettent de réaliser de notables progrès. Décryptage.

Épidémie | Eneas De Troya via Flickr CC License by

Épidémie | Eneas De Troya via Flickr CC License by

C’était un rêve, c’est un flop. Un rêve très largement médiatisé et un flop assez peu commenté. L’idée était simple comme internet: utiliser les moteurs de recherche et les flux des réseaux sociaux en lieu et place des systèmes traditionnels de surveillance des épidémies de maladies infectieuses et contagieuses. La souplesse de la Toile se substituant à la lourdeur des structures épidémiologiques. Un peu trop simple pour décrypter la réalité pathologique.

L’histoire vient d’être résumée par trois chercheurs français dans le dernier numéro en date de Questions de Santé publique. Pierre-Yves Boelle, Rodolphe Thiébaut, Dominique Costagliola y démontrent que les «données massives» (le «Big Data») ne sont nullement, en 2016, une solution magique de nature à remplacer les vieilles jumelles des épidémiologistes.

Un risque de surestimation 

Au départ il y eut le postulat que la recherche en ligne de symptômes ou de traitements devait augmenter lors d’épidémies. On pouvait dès lors, pour commencer, développer un algorithme sélectionnant les requêtes les plus utilisées lors des dernières épidémies de grippe saisonnières. La méthode Google Flu® fut décrite par les chercheurs de Google en 2009 dans les colonnes de Nature. En suivant prospectivement le volume de ces requêtes au cours du temps, ils estimaient pouvoir proposer un nouvel indicateur épidémique généré purement in silico, basé sur les millions de requêtes des internautes.

«L’enthousiasme initial autour de cette approche, suscité par la bonne corrélation entre requêtes internet et indicateurs épidémiologiques plus traditionnels, a cependant dû être tempéré, soulignent Pierre-Yves Boelle, Rodolphe Thiébaut, Dominique Costagliola. L’algorithme développé en 2008 n’a pas détecté la survenue de la pandémie grippale H1N1 en 2009. Plus globalement, ce système a mené à une surestimation presque systématique du niveau de circulation du virus grippal au cours du temps.»

Ces failles ont été mises en lumière et analysées en 2014 dans la revue Science par des chercheurs du Lazer Labatory de Boston.

Pour les trois chercheurs français, l’utilisation de «données massives» peut toutefois, dans le meilleur des cas, être un complément important. Elle peut aussi conduire à des résultats plus décisifs –comme dans la surveillance de la dissémination globale de pathogènes. Dès les années 1970, des travaux avaient montré l’importance qu’il fallait accorder à la mobilité des populations dans la propagation des épidémies. Une démonstration fut notamment apportée en étudiant les flux de passagers entre cinquante aéroports dans le monde lors de la pandémie de grippale de 1957.

Plusieurs usages pratiques

Aujourd’hui, les épidémiologistes peuvent compter avec le simulateur Gleam pour étudier la dissémination globale d’une épidémie –un système qui utilise les connexions de 3.800 aéroports couvrant plus de 99% du trafic mondial. Il y a là des modèles ayant montré une très bonne capacité à prédire la «séquence temporelle» des introductions dans un pays donné de maladies infectieuses virales émergentes: grippe A(H1N1), SARS, MERS-CoV, chikungunya, Ebola. Les trois chercheurs français donnent d’autres exemples d'utilisation variés:

«À une échelle plus locale, la mobilité observée à partir de la localisation des téléphones portables a permis de mieux comprendre les conséquences sanitaires d’un désastre, comme le tremblement de terre à Haïti et l’épidémie de choléra qui a suivi; elle a aussi été proposée comme clé pour comprendre l’extension de l’épidémie d’Ebola qui a touché des zones beaucoup plus intensément connectées en 2014 que dans toutes les épidémies précédentes.

Finalement, l’utilisation d’objets technologiques nouveaux dans le cadre d’études observationnelles a également permis d’obtenir des données jamais auparavant disponibles pour mieux comprendre des phénomènes épidémiques. Par exemple, en équipant six cents personnes avec un récepteur GPS dans une ville du Pérou, la cartographie des mouvements de population a été dressée avec une grande précision. Ceci a permis d’étudier la propagation de la dengue à l’échelle intra-citadine.

Enfin, l’équipement de 500 personnes dans un hôpital, patients et professionnels, avec des senseurs électroniques permettant d’enregistrer leurs contacts a permis de documenter plusieurs millions de contacts au cours de six mois de suivi. De telles mesures peuvent aider à comprendre la dissémination des staphylocoques, et possiblement à proposer de nouvelles stratégies d’hygiène

Reste l’essentiel. Si les associations entre variables mises en évidence dans l’analyse des «données massives» sont une mine d’or pour générer et étayer des hypothèses épidémiologiques, elles ne permettent en rien de simplifier la démarche centrale qui consiste à établir et à interpréter une relation de cause à effet. Bien au contraire. Louis Pasteur et ses élèves n’ont pas eu recours à Big Data pour faire une croix sur la génération spontanée et établir la cartographie des causalités infectieuses.

Gérer au mieux les données

Comme dans d’autres disciplines scientifiques, il faut ici parvenir à démontrer le rôle joué par tel ou tel facteurs pathogènes potentiels. Par exemple, en montrant que l’altération de ces facteurs permet de diminuer le risque de la maladie associée. De ce point de vue, trop de données peut, loin de l’éclaircir, brouiller la démarche scientifique. C’est là un message qui pout apparaître quelque peu paradoxal. «C’est un message que notre communauté doit porter en direction des autres disciplines et du grand public par rapport aux attentes vis-à-vis des données massives en santé», estiment Pierre-Yves Boelle, Rodolphe Thiébaut, Dominique Costagliola.

Les mêmes précautions valent pour cet autre eldorado annoncé que sont les exploitations des «données massives» dans le champ plus général de la biologie et de la médecine. L’exemple le plus fréquemment avancé est celui des données génomiques, produites de plus en plus rapidement, de plus en plus finement et pour des coûts de moins en moins élevés. Il y a là, en marge de l’utilisation des données issues des smartphones et des réseaux sociaux notamment, un formidable potentiel. Cette nouvelle lecture du vivant au travers des machineries génétiques n’en est qu’à ses balbutiements; ce qui n’interdit nullement le développement de nouveaux appétits marchands. Au premier rang desquels Google marié à 23andMe qui commercialise à ciel ouvert des lectures individuelles de génomes à mi-chemin de la prophétie et de la cartomancie.

Jean-Yves Nau
Jean-Yves Nau (803 articles)
Journaliste
En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies pour réaliser des statistiques de visites, vous proposer des publicités adaptées à vos centres d’intérêt et nous suivre sur les réseaux sociaux. > Paramétrer > J'accepte