Essayez de retrouver un terroriste caché dans des gigaoctets de métadonnées

Imaginons que des responsables du renseignement américain ont capturé un membre d'al-Qaida et ont obtenu le numéro de téléphone d'un financier yéménite du réseau terroriste. Que faire?

Haystacks / lin padgham via FlickrCC License by

- Haystacks / lin padgham via FlickrCC License by -

Depuis début juin, les détracteurs et les défenseurs de la NSA n'ont eu de cesse de débattre des mérites et des inconvénients des métadonnées –ces informations sur l'activité téléphonique de millions d'Américains obtenues par le gouvernement via une ordonnance de justice secrète.

Les informations collectées comprennent tous les relevés des appels passés sur le réseau Verizon (et, semble-t-il, d'autres opérateurs américains) avec les heures, dates, durées des appels et numéros des émetteurs et des destinataires, sans pour autant inclure les noms associés aux comptes concernés.

Pour certains, la collecte de ces données représente une grave violation de la vie privée des Américains. Pour d'autres, qu'importent les problèmes de confidentialité tant que cela nous protège du terrorisme.

On touche effectivement certaines questions de vie privée, mais pas nécessairement les plus évidentes. Histoire de contextualiser les problématiques les plus importantes, voici un exemple d'analyse de métadonnées fondée sur un échantillon issu d'un véritable réseau social. Les données ne proviennent pas de relevés téléphoniques, mais elles sont assez comparables pour circonscrire les difficultés inhérentes à un tel processus et comprendre quelles questions de vie privée sont ici en jeu.

Au départ: un simple numéro de téléphone

Cet exemple a beau être une analogie pertinente de ce qui se passe derrière les portes closes de la NSA, il ne s'agit en aucun cas d'un portrait se voulant fidèle ou exact. Tout a été fait pour que cet exemple soit le plus proche possible de la réalité, mais un certain nombre d'hypothèses et de procédures classifiées rendent la vérité sans doute quelque peu différente.

Commençons par un scénario classique: des responsables du renseignement américain ont capturé un membre d'al-Qaida et ont obtenu le numéro de téléphone d'un financier yéménite du réseau terroriste.

Vous êtes analyste pour une version fictionnelle de la NSA et vous avez le droit de compulser les métadonnées afin de retrouver le réseau de ce financier. Comme point de départ, vous n'êtes armé que d'un simple numéro de téléphone.  

La première étape est simplissime: vous entrez le numéro du financier dans le logiciel d'analyse des métadonnées et vous cliquez sur OK.  

Dans notre exemple, vous obtenez une liste de 79 numéros qui ont appelé ou ont été appelés par le financier au cours des trente derniers jours. Le financier est un agent clandestin et son téléphone sert à gérer des activités clandestines, quiconque appelle ce numéro est donc susceptible d'être une cible de premier choix.

En se servant des métadonnées, nous pouvons évaluer l'importance de chaque numéro en déterminant la localisation de l'interlocuteur et l'heure des appels, ainsi qu'en comptant ses récurrences et la longueur des conversations. Lors de votre formation, on vous a appris que ces éléments indiquaient le «niveau de menace» de chaque interlocuteur. Votre ordinateur vous permet de faire un graphe de ces données. Chaque point représente un numéro et la taille du point est proportionnelle à son niveau de menace.

Il s'agit déjà d'une manne de renseignements, et vous n'êtes à votre bureau que depuis cinq minutes à tout casser. Ce que vous pouvez maintenant faire, c'est revenir aux métadonnées et voir si les numéros se sont appelés entre eux, en plus d'avoir conversé avec le financier.

Sur la base d'une formule mathématique courante, vous pouvez évaluer l'importance de ces numéros en voyant le nombre de liens qu'ils établissent entre eux (mathématiquement, c'est comparable à ce que fait Google pour hiérarchiser les pages web). Les comptes qui ont le plus de connexions sont souvent extrêmement significatifs dans un réseau social (même si cela ne veut pas dire avoir de l'importance en tant que terroriste).

Votre recherche révèle que bon nombre de ces personnes se parlent entre elles et n'interagissent pas uniquement avec le financier. Cela peut signifier la coordination d'activités. Ou que leurs conversations concernent al-Qaida, d'autant plus si vous croisez cela avec les critères de votre premier graphe. (Ci-dessus, il ne reflète que la position des numéros au sein du réseau).

Et que ce passera-t-il si vous examinez tous les appels entrants et sortants passés par les 79 numéros que vous venez d'isoler? Là, vous entrez dans le monde de Big Data

Si nous faisons une différence entre ces énormes masses de données et d'autres, moins conséquentes, c'est qu'il est impossible de les déchiffrer en lisant simplement les informations qu'elles contiennent –dans le cas présent, une très longue liste d'appels téléphoniques. Quand vous collectez un volume très important de données, il vous faut les analyser mathématiquement pour isoler des connexions impossibles à déceler à l’œil nu.

A ces nouveaux numéros, à deux degrés de séparation du premier financier, vous ajoutez tous les appels passés et reçus par chacun des 79 numéros de votre liste. Ici, cela nous donne un nouveau réseau de 47.923 numéros,  67.535 liens et des centaines de milliers d'appels, avec chacun son heure, sa durée et sa localisation.

Vous avez été embauché par la NSA, autant dire que vous devez toucher votre bille en maths. Mais pour utiliser votre logiciel, vous n'avez pas forcément besoin d'en comprendre tous les rouages. Vous cliquez sur OK et il vous donne des résultats fondés sur des formules mathématiques, qu'on vous a auparavant expliquées dans leurs très grandes lignes.

Dans le cas présent, vous obtenez un ensemble de points qui vous permettent de hiérarchiser l'importance de chaque compte. Selon ces chiffres, vous pouvez circonscrire votre jeu de données entre 1.200 et 22.500 numéros statistiquement significatifs. 

La marge est large, mais elle n'a rien d'arbitraire. Ici, les 22.500 numéros correspondent à l'ensemble le plus mathématiquement avantageux que vous pouvez obtenir. Vous pouvez n'en garder que la moitié, en diminuant les points d'importance que d'environ 7,5%. Avez ce jeu de données-là, ne pouvez pas faire mieux. (Je simplifie à l'excès, mais cela vous donne une bonne idée des proportions).

Plus vous raboterez votre jeu de données, moins il sera pertinent. Vous pouvez choisir de ne garder que 1.200 numéros, soit un élagage de 97,5%, mais vous aurez aussi diminué leur importance de 93%. C'est encore une ristourne, mais bien moins intéressante.

Dans tous les cas, vous avez une quantité très importante de donnés. Vous optez donc pour une analyse complémentaire dans votre menu et appuyez sur OK. Le logiciel identifie rapidement un certain nombre de segments intéressants dans vos données et illustre le tout par des graphes en couleur. 

Le premier graphe regroupe les numéros en fonction de qui s'appelle le plus souvent, et les éloigne en fonction de leur degré de séparation (s'ils sont tous à deux degrés sur financier, cela ne veut pas dire qu'ils ont tous, entre eux, la même distance sociale). Ces grappes sont très denses et correspondent à des centaines, voire à des milliers de numéros. Il y a de fortes chances qu'en examinant le contenu de chaque groupe, vous trouviez certaines connexions thématiques, comme par exemple leur lieu de résidence ou les organisations qu'ils soutiennent. Mais tant que vous n'avez pas les noms de ces personnes et leurs adresses, et peut-être même le contenu de leurs conversations, vous ne pouvez pas savoir, précisément, quelles sont ces thématiques.  

Le second graphe illustre par des points de couleur des «cliques», soit des regroupements de personnes plus restreints: moins d'une douzaine de comptes par clique, et moins de 400 comptes au total. Il s'agit des relations les plus actives et les plus concentrées –de très petits groupes qui partagent probablement certains liens directs. Vous pourrez même identifier (jusqu'à un certain point) les cliques les plus connectées à votre premier financier.

Le temps passe et votre ordinateur vous a craché une demi-douzaine de ces analyses avec, à chaque fois des listes différentes de cibles potentielles, certaines relativement limitées et d'autres plutôt énormes. 

Vous pouvez continuer à élargir le filer –ajouter par exemple un autre degré de séparation par rapport au financier. Mais vous obtiendrez alors des millions de numéros et devrez gérer de nouveaux niveaux de complexité. C'est donc le moment de faire une pause.

Et de vous décider.

Que faire?

Quels numéros devraient être associés à des noms, des adresses ou d'autres données? Lesquels requièrent une enquête plus approfondie, des examens plus scrupuleux? (Vous pourriez croiser ces numéros avec d'autres bases de données, vous tourner vers le FBI ou la CIA pour qu'ils lancent des enquêtes ou demander à votre supérieur l'autorisation de mettre tel ou tel numéro sur écoute et d'accéder au contenu des conversations.)

Vous avez la possibilité de transmettre l'une des ces listes et d'initier des collectes de données et des enquêtes supplémentaires:

  • 1. Les 79 numéros ayant conversé avec le financier;
  • 2. Les 24 numéros les plus importants de cet ensemble;
  • 3. Les 47.923 numéros qui sont à deux degrés de séparation du financier;
  • 4. Les 1.250 numéros (sur 47.923) avec un score d'importance des plus élevés (mais qui ne représentent que 7% de la somme de tous les scores d'importance de l'ensemble du réseau);
  • 5. Les 4.500 numéros les plus importants, soit 21,5% du total;
  • 6. Les 22.500 numéros les plus importants, soit 92,5% du total;
  • 7. L'un des groupes de couleur isolé par votre analyse informatique, qui contiennent entre des centaines et des milliers de comptes (mais quelle couleur choisir?);
  • 8. L'une des cliques, ce qui limite les données à quelques centaines de numéros les plus actifs, mais vous fait aussi courir le risque de louper un membre ou une cellule d'al-Qaida restreignant à dessein ses communications.

Que faire?

Vous avez déjà «touché» à des centaines de milliers de relevés téléphoniques, appartenant pour beaucoup à des citoyens américains. La plupart n'a servi qu'à des calculs mathématiques visant à identifier des groupes plus petits et susceptibles d'être étudiés plus attentivement. Pour le moment, vous n'avez même pas examiné le moindre numéro de téléphone.

Mais si vous choisissez de le faire, il faut savoir que ces numéros sont des données extrêmement structurées. La liste des 47.923 numéros comportent des milliers de comptes basés aux Etats-Unis. Grâce aux indicatifs géographiques, aux échanges entre les numéros et aux localisations des téléphones, quelques clics vous permettront d'accéder à une liste de villes associées à ces gens, que ce soit dans tout ce jeu de données ou dans des sous-ensembles.

La NSA affirme avoir des procédures de «minimisation» pour éviter des intrusions inutiles dans la vie privée de citoyens américains, sans doute en bloquant plus ou moins l'accès de ses analystes à des informations liées à des téléphones localisés aux États-Unis. Mais si la liste révèle une douzaine de numéros très connectés et situés, par exemple, à Minneapolis, n'est-ce pas justement le genre de truc que vous êtes censé détecter? A partir de quand l'importance d'un numéro américain surpasse les questions de vie privée? S'il fait partie des 79 ou des 22.500 numéros les plus mathématiquement significatifs?

Ce qui nous mène à une autre question cruciale: quel degré de confiance devez-vous accorder à ces calculs mathématiques? Vous avez accès à des dizaines d'analyses, chacune avec ses points forts et ses points faibles. Lesquelles sont les plus adaptées à votre jeu de données? Y en a-t-il une seule?

Au diable la vie privée?

L'analyse des réseaux a démontré son efficacité pour découvrir des nœuds importants... pour la structure du réseau concerné. Mais ce n'est pas nécessairement la même chose en termes d'importance ou de dangerosité d'un terroriste. Plus vous élargissez votre filet, plus vous avez de chances de tomber sur un simple réseau social et pas sur un réseau terroriste.

L'un des éléments les plus importants de votre analyse, c'est la durée et l'heure d'un appel qui vous permettent de déterminer quels appels sont les plus probablement liés à des opérations terroristes. Ces critères reflètent-ils des tendances historiques ou sont-ils constamment revus? Et plus important: leur précision a-t-elle été testée?

Et comment effectuer ce test autrement qu'en se disant «au diable la vie privée» et en collectant les contenus des conversations de toutes les personnes d'un réseau suffisamment conséquent pour pouvoir les comparer à vos prédictions? Pouvez-vous faire confiance à ce type d'analyses si elles ne sont pas régulièrement testées?

Il n'y a pas de réponse claire et objective à ces questions. Mais il existe des facteurs influençant les gouvernements dans leurs manières d'y répondre.

De un, la politique américaine se fonde toujours sur l'idée que toute attaque terroriste doit être empêchée. Le corollaire, c'est que même si les conséquences en termes de libertés civiles risquent, sur le papier, d'être mauvaises, elles sont insignifiantes quand vous avez une bombe à retardement à désamorcer en face de vous.

Mais nous ne savons pas combien d'attentats terroristes «imminents» ces techniques de surveillance ont empêchés. Quelqu'un utilise-t-il vos analyses en temps réel?

En dehors des questions de vie privée, il est aussi important de restreindre au maximum vos jeux de données et d'éviter les excès. En partant d'un premier compte (celui du financier), enquêter sur quelques données –dans le cas présent, les 79 numéros qui l'ont appelé ou ont été appelés– peut vous permettre de meilleurs résultats, à la fois en termes de vie privée et de lutte contre le terrorisme.

Mais si vous partez de plusieurs sources –le financier, son banquier et quatre coursiers qui travaillent avec eux– vous ouvrez la porte à des analyses mathématiques bien plus conséquentes, et risquez d'augmenter de manière exponentielle le nombre de comptes à analyser.

Les analystes sont friands de données, même quand ils n'en ont pas spécialement besoin, et une bonne part du gouvernement est composé de gens pour qui Big Data veut dire magie. Ce qui fait que lorsque des présidents, des législateurs et des juges se voient expliquer dans des termes aussi vagues qu'exaltés que davantage de données égale moins de terrorisme, pas étonnant qu'ils signent des chèques en blanc en rafale. 

Les questions que cela pose

Si ces questions sont complexes, elle ne sont pas pour autant impénétrables. Une fois passée l'évidence et l'inutilité de savoir si le Foreign Intelligence Surveillance Act a été voté pour permettre ce genre de méga collecte, des questions cruciales nécessitent des réponses. Elles sont essentielles si nous voulons continuer à utiliser ces techniques –ce que nous ferons sans aucun doute.

  • 1. Combien de contacts avec les données d'un citoyen américain peut avoir un analyste avant que cela devienne une intrusion problématique dans sa vie privée? Est-ce une violation d'intégrer un relevé téléphonique dans un graphe, si l'analyste ne le regarde jamais individuellement? Est-ce une violation de le regarder individuellement, si vous ne l'associez pas à un nom? Est-ce une violation si vous l'associez à un nom, mais que vous ne déclenchez pas d'enquête?
  • 2. L'analyse de métadonnées est plus précise quand les données sont plus complètes. Les mesures de minimisation filtrant les données de citoyens sont-elles donc pertinentes? Quid si ce système se révélait en réalité moins efficace et, ironiquement, plus prompt à s'introduire dans la vie privée d'innocents?
  • 3. Quel pourcentage du trafic téléphonique sur les numéros ciblés ne passe que par des opérateurs étrangers? L'absence de ces données fausse-t-elle l'analyse et risque-t-elle de surestimer l'importance de numéros utilisés par des citoyens américains?
  • 4. Plus fondamentalement, voulons-nous faire confiance à des formules mathématiques et des modèles comportementaux pour savoir qui mérite une attention accrue des services de renseignement?
  • 5. L'analyse de métadonnées gère rarement des certitudes et produit quasi toujours des probabilités. Quel probabilité de nocivité ces modèles doivent-ils démontrer avant que le gouvernement s'en serve pour ordonner une mise sur écoute, la perquisition d'un domicile, un tir de drone? 90%? 60%? Devons-nous autoriser la collecte de données un peu plus intrusives si elles permettent d'améliorer la marge d'erreur?
  • 6. Avons-nous testé les mathématiques de nos analyses et comparé leur précision au contenu réel des conversations? Si oui, comment ces tests ont-ils été effectués? Si non, sommes-nous disposés à croire ces modèles sur la base de leur efficacité dans d'autres domaines ou doivent-ils être précisément testés dans celui de la lutte contre le terrorisme?
  • 7. Si nous pensons que ces modèles doivent être testés, sommes-nous disposés à accepter les violations de vie privée qu'ils engendreront forcément? Des modèles plus précis permettront-ils, à long-terme, à moins de gens innocents de se faire surveiller?
  • 8. Sommes-nous disposés à faire confiance au gouvernement dans la gestion de ces données? Si le gouvernement affirme qu'elles servent uniquement à la lutte contre le terrorisme étranger, pouvons-nous croire que le président n'ordonnera pas à la NSA d'accéder à ces métadonnées si le risque d'un attentat americano-américain est décelé?
  • 9. De même, que se passe-t-il si l'origine d'un attentat n'est pas immédiatement évidente, comme lors du Marathon de Boston? La NSA doit-elle pouvoir lancer une analyse des métadonnées et la continuer tant que les choses ne sont pas clarifiées?
  • 10. Si nous autorisons l'usage de cette technologie dans des enquêtes relatives à du terrorisme domestique, lors d'une crise ou autre, comment éviter de collecter des données relevant d'opposants politiques légaux? Par exemple, en ciblant des anarchistes, nous pourrions accidentellement établir la liste de leaders du mouvement Occupy. Ou en ciblant des milices d'extrême-droite, nous pourrions tomber sur une base de données de vendeurs d'armes. Quand vous compulsez d'énormes jeux de données, vous trouvez parfois des choses auxquelles vous ne vous attendiez pas.

Pas une de ces questions est simple ou facile. Aucune ne peut se régler à coup de sondages ou d'avis d'experts. Impossible d'en parler avec précision et objectivité dans un sujet de deux minutes à la télévision ou dans un couloir de la Chambre des Représentants.

Et pourtant, elles sont pile à l'intersection entre Big Data, la lutte contre le terrorisme et le système juridique américain, y compris en matière de protections constitutionnelles contre des saisies non motivées. Les Pères Fondateurs ne pouvaient pas imaginer, qu'un jour, une machine se servirait de formules mathématiques compliquées pour justifier un mandat de perquisition.

Nos capacités technologiques dépassent, et de loin, les rêves les plus fous des auteurs du Quatrième amendement, et nos tribunaux, comme nos lois, ne sont plus adaptés.

Si l'Amérique est incapable de trouver l'énergie suffisante pour s'attaquer précisément et attentivement à ces questions, nous n'en maîtriserons probablement pas les conséquences. Nous risquerons alors de perdre de notre liberté, de notre sécurité –si ce n'est des deux.

Et personne ne sera capable de l'expliquer.

J.M. Berger
Auteur du site Intelwire.com et du livre Jihad Joe: Americans Who Go to War in the Name of Islam [Djihad Joe: ces Américains qui font la guerre au nom de l'islam]

Traduit par Peggy Sastre

Devenez fan sur , suivez-nous sur
 
L'AUTEUR
Les articles signés Foreign Policy ont d'abord été publiés en anglais sur Foreign Policy, magazine en ligne américain de Slate Group, spécialisé dans les affaires étrangères et l'économie. Ses articles
TOPICS
PARTAGER
LISIBILITÉ > taille de la police
SLATE CONSEILLE
D'autres ont aimé »
Publié le 29/06/2013
Mis à jour le 29/06/2013 à 8h34
3 réactions