Temps de lecture: 5 minutes
Dans Le faux coupable (The Wrong Man, Hitchcock, 1957), le personnage joué par Henry Fonda, Christopher Balestrero, dit Manny, est accusé de hold-ups à main armée sur la base de témoignages, puis de «preuves scientifiques»: il est reconnu par des victimes avant de commettre les mêmes erreurs que le coupable dans la rédaction des notes que celui-ci avait fait passer aux caissières des établissements attaqués.
Une fois accusé, Manny aura bien du mal à faire la preuve de son innocence: il lui faut, avec son épouse (qui en perdra la raison) retrouver ce qu’il a pu faire à une date donnée plusieurs mois auparavant, et chercher des témoins qui ne sont pas faciles à retrouver.
La loi sur le renseignement récemment votée nous fournit l’opportunité d’écrire le scénario d’un remake qui pourra être filmé dans quelques années: le nouveau Manny aura été retrouvé par recoupement de ses déplacements tels que laissés par un téléphone portable qu’il nie avoir encore en sa possession au moment des faits. Son incapacité à expliquer ce qu’il faisait un mercredi soir particulier huit ans auparavant (malheureusement, il faisait partie de ces personnes prudentes qui chiffrent leurs données, ce qui empêche celles-ci d’être oubliées par l’État[1]) en font rapidement un suspect très crédible.
Les analyses scientifiques vont expliquer très sérieusement qu’il n’y a qu’une chance sur mille que certains concours de circonstances s'observent conjointement chez un individu donné, en omettant de dire que ce sont justement ces concours de circonstances qui ont fait de lui un suspect. Et il n’est pas certain que, dans le remake, on choisisse comme dans la version 1957 une fin dans laquelle le personnage va s’en sortir par le plus grand des hasards.
Faisceau de preuves
Si le fait que l’État en sache plus sur un individu que l’individu lui-même est déjà une question qui devrait nous inquiéter sérieusement, le point qui intéresse un informaticien est différent: si l’on peut concevoir[2] que des éléments rares viennent s’ajouter les uns aux autres pour devenir un faisceau de preuves, peut-on encore tenir ce raisonnement dans un monde dans lequel le trop-plein d’informations fait qu’il s’agit plutôt d’utiliser le faisceau de preuves pour créer un coupable plutôt que de partir du suspect pour examiner les preuves?
Si je me contente de fouiller des téraoctets de données et d’en extraire des coïncidences, il y a fort à parier que ce qui sera trouvé sera fortuit
Autrement dit, si, pour un suspect donné, l’examen de certains paramètres fait qu’on n’a qu’une chance sur mille de trouver de telles coïncidences, on confond un peu trop aisément le fait que, pour un individu donné, une chance sur mille de se tromper correspondrait (sans doute hélas) à une erreur judiciaire acceptable[3] avec le fait qu’en introduisant le pistage systématique de larges portions de la population la donne change complètement.
Ainsi, dans le contexte de la recherche scientifique, si j’émets une hypothèse, puis si je la vérifie expérimentalement avec un protocole qui m’assure qu’il n’y a qu’une chance sur mille de me tromper, je peux très certainement me féliciter du résultat.
Si, par contre, je ne fais aucune hypothèse et me contente de fouiller des téraoctets[4] de données et d’en extraire des coïncidences, il y a fort à parier que ce qui sera trouvé sera fortuit.
Utiliser le hasard
Si l’on se réfère au Larrousse, on trouve:
Fortuit: qui arrive ou paraît survenir par hasard; une rencontre fortuite.
La définition prend bien en compte la différence entre le fortuit et le hasard. C’est cette différence qui est essentielle. Un autre mot qui pourrait nous intéresser est la sérendipité: il s’agit là d’une autre façon d’utiliser le hasard. Typiquement, le chercheur trouve quelque chose alors qu’il cherchait quelque chose d’autre.
Prenons un exemple: si j’invente un nouveau médicament et que je le teste sur une population par rapport à une maladie donnée (et il existe bien entendu des protocoles pour cela), j’aurai un résultat scientifique: le hasard pourra encore avoir joué un rôle (toute ma population A ayant eu la malchance d’avoir la grippe cette année au contraire de la population B). Mais la probabilité de cet événement rare se mesure également.
Si, lors de mon expérimentation, je découvre que mon médicament offre un bénéfice par rapport à une autre maladie, c’est l’effet sérendipité qui se manifeste.
Si, par contre, je décide de ne rien expérimenter du tout mais de donner quand même mon médicament à une population A (et pas à la population B), puis d’examiner ces cohortes sans faire d’hypothèse préliminaire, il y aura nécessairement (sauf si on subit le même genre de malchance que celle évoquée dans l’expérience précédente) une coïncidence inexpliquée qui surgira: peut-être le médicament sera alors prouvé pour fonctionner avec les rouquins mesurant plus d’1m70? Ou avec les femmes de 30 à 35 ans ayant séjourné en Italie avant 2010?
Machine infernale
Ce qu’il faut comprendre, c'est que, s’il est très improbable de gagner au loto, il est également très improbable de ne pas trouver de gagnant du loto dans une population donnée. Et qu’il est également très improbable de ne pas trouver une explication fortuite si on regarde les différents gagnants du loto.
S’il est très improbable de gagner au loto, il est également très improbable de ne pas trouver de gagnant du loto dans une population donnée
Le fait d’avoir accès à de très larges volumes de données change complètement la perception que nous devons avoir de ce qui tient de la chance ou de la malchance, du hasard et du fortuit.
Et, hélas, si on peut fouiller des données pour trouver une relation fortuite entre les vainqueurs du loto et le repas qu’ils ont pris le jour où ils ont acheté leur ticket, il se produit inévitablement la même chose lorsque l’on fouille des fichiers condamnés à être volumineux à la recherche du coupable idéal.
Dans Le faux coupable, c’est la combinaison de trois éléments qui met en marche la machine infernale: des indices (des témoignages erronés) montrant que Manny était au mauvais endroit au mauvais moment, la très grande difficulté pour le suspect à établir ce qu’il faisait au moment du crime (commis quelques mois auparavant) et la preuve scientifique (une analyse graphologique et des erreurs de transcription).
Demain, avec la loi sur le renseignement, la combinaison sera la suivante: des traces numériques montreront qu’un Manny bis était au mauvais endroit au mauvais moment, il aura grand peine à établir ce qu’il faisait au moment du crime qui remontera à plusieurs années et il sera prouvé qu’il est coupable par le recouvrement d’éléments fortuits dus à la construction sans contrôle de gigantesques entrepôts de données[5].
1 — Pour les correspondances chiffrées, le délai de conservation des données, qui est de trois ans, court «à compter de leur déchiffrement». Retourner à l'article
2 — Ceci est un point épineux de discussion entre scientifiques et non scientifiques: en science, les preuves ne s’additionnent pas. Retourner à l'article
3 — Dans un monde où 4% de taux d’erreur judiciaire est raisonnable, 1/1000 est très raisonnable. Retourner à l'article
4 — 10 téraoctets = tout le Wikipédia en langue française ou moins d'une heure de conversation de 200.000 personnes. Retourner à l'article
5 — Les différences références proposées dans cet article (auxquelles il convient d’ajouter celle aux erreurs commises par le FBI dans plusieurs cas) peuvent laisser penser que cela ne se passe(rait) qu’ailleurs; on pourrait donc respirer. La loi récemment adoptée en France est pourtant de nature à nous rapprocher de cet ailleurs... Retourner à l'article