Alexis C. Madrigal, journaliste pour le site Fusion, se pèse tous les matins. Les données sont immédiatement envoyées sur son iPhone et dans le cloud. Le but de sa démarche étant de «rester honnête avec lui-même» et de rester conscient de son état de santé afin de remédier à tout surpoids qui surviendrait. Mais il s’est vite rendu compte que «ce chiffre qui détermine si vous êtes normal ou obèse, maigre ou gros, est susceptible d’être manipulé». Et effectivement, en fonction de votre état d’esprit, vous allez décidé de vous peser après avoir couru cinq kilomètres ou après un bon repas.
Ce biais à propos de l’interprétation des données que l’on récolte sur notre propre corps, est aussi observable dans d’autres domaines. Avec, en premier lieu, les études scientifiques, où les chercheurs adorent interpréter ce qu'ils veulent. Slate.fr vous le racontait il y a quelques mois, les études sur le café se contredisent régulièrement. Certaines affirment que le café est bon pour le cœur, d’autres l’inverse. Tout dépend d’un tas de facteurs et de données différents, qui ne sont volontairement pas pris en compte à chaque fois.
Un biais statistique
Les scientifiques se basent avant tout sur un schéma statistique dès lors qu’il leur paraît significatif, quitte à stopper les collections de données plus tôt que prévu. Le journaliste de Fusion explique par exemple que les auteurs d’études décident souvent d’évacuer certaines variables ou types d’analyse lorsqu’elles ne vont pas dans le sens des résultats attendus. «Ajoutez tout cela, et vous avez un vrai problème dans la façon qu’a notre société de produire de la connaissance», estime Alexis C. Madrigal.
C’était tout le but de la démarche d’un journaliste allemand, qui a décidé de mettre en place une étude biaisée pour faire croire au monde entier que le chocolat faisait maigrir:
«Il faut voir les mesures comme des tickets de loterie, écrivait-il à l’époque sur iO9.com. Chacun a une petite chance de prendre la forme d’un résultat “significatif“ à partir duquel on peut sortir une histoire pour la vendre aux médias.»
Une expérience déformée
Et encore, il s’agit-là du monde professionnel des scientifiques. Imaginez un instant ce que font les grandes industries de la tech avec vos données. Par exemple, la mise de publicités ciblées sur Internet repose sur une grande partie de données produites par des logiciels se faisant passer pour des humains. Les données que les entreprises récupèrent sont faussées dès le début, et participent ainsi à une déformation de l’expérience des internautes en ligne, qui réagissent en s’armant de bloqueurs de publicités.
« Collecter des données à propos de quelque chose change la façon dont elle fonctionne, conclut le journaliste. Même la plus petite collection de statistiques n’est pas un acte neutre, mais une façon de changer la forme d’une chose.»
Dans les années qui viennent, c'est l’un des gros problèmes que devra affronter le Big Data dans le domaine de la santé.