Tech & internet

Que savent exactement les algorithmes de reconnaissance et de géolocalisation d'image?

Andreas Weigend, traduit par Peggy Sastre, mis à jour le 22.03.2017 à 11 h 19

Une image vaut un milliard de points de données.

TANG CHHIN SOTHY / AFP

TANG CHHIN SOTHY / AFP

Aux États-Unis, plus des trois-quarts des adultes possèdent un smartphone –la France n'est pas très loin, avec environ 65% d'utilisateurs– et passent, en moyenne, à peu près deux heures par jour à le consulter. En réalité, nous toucherions notre appareil entre 200 et 300 fois par jour –soit, pour beaucoup, des contacts bien plus fréquents que ceux que nous avons avec les individus partageant notre vie.

En d'autres termes, lorsque nous sommes sur nos téléphones, nous ne nous contentons pas de tuer le temps ou de prendre des nouvelles du monde. Nous «sensorisons» notre quotidien via divers capteurs générateurs de données, sans pour autant comprendre tout ce que cela peut impliquer.

Avec plus d'un milliard de smartphones dans le monde, notre vie est désormais remplie de micros, de caméras et d'appareils photo connectés. La plupart des images circulant sur internet ont été prises avec un téléphone, et selon mes calculs, c'est à peu près un milliard de photos qui sont envoyées tous les jours sur Facebook.

Des possibilités insoupçonnées

Que vous identifiez ou non les individus présents sur vos photos, des logiciels de reconnaissance faciale peuvent le faire pour vous. Sur Facebook, l'algorithme DeepFace est capable de reconnaître un visage apparaissant sur diverses images, qu'importe que l'éclairage, le cadrage ou le point de vue soient radicalement différents. À l'aide des photos de profil, des photos taguées et des graphes sociaux, les probabilités d'assigner le bon nom sur le bon visage sont des plus élevées.

C'est sans doute un détail pour vous, mais le fait est que les photos de vos amis, des membres de votre famille et de votre environnement peuvent en révéler beaucoup. Une problématique récemment exacerbée avec la publication, en février, d'un article signé par des chercheurs du projet Google Brain. Grâce à une nouvelle et impressionnante méthode –baptisée «super-résolution»–, les ingénieurs ont pu en effet extrapoler une image haute définition à partir de photographies de très faible qualité ou fortement pixelisées.

Pour commencer, la plupart des gens activent le GPS de leur téléphone afin de se localiser. Par défaut, lorsque le GPS de votre téléphone est en service, les métadonnées associées à un cliché incluent la latitude et la longitude de l'endroit où l'image a été prise. S'il est possible de supprimer ces données de votre propre téléphone, il est impossible de contrôler les métadonnées des images prises par autrui.

Lieu, heure… 

Reste que ces métadonnées de géolocalisation ne sont pas le seul moyen de vous situer. Si votre photo contient un monument, un panneau de signalisation ou même un menu de restaurant, on peut savoir où vous êtes. La longueur des ombres peut aussi donner une indication sur l'heure où la photo a été prise. Et pour faire ces observations, nul besoin d'humain: des systèmes de reconnaissance d'image en sont parfaitement capables.

Des algorithmes sont aujourd'hui conçus pour reconnaître des individus apparaissant sur des vidéos bruitées prises par des caméras de surveillance ou des téléphones portables –et que leur visage soit ou non visible. Il est possible d'identifier quelqu'un par sa démarche ou le rythme de ses pas.

Les systèmes de reconnaissance d'image peuvent aussi servir à interpréter l'environnement d'une photo. Voici déjà quelques années, une petite start-up, Jetpac, avait identifié et caractérisé le contenu de 150 millions de photos postées sur Instagram afin de générer un répertoire de commerces trouvables grâce à des critères sémantiques. Par exemple, si les photos prises dans un restaurant laissaient voir de nombreuses bouches ornées de rouge à lèvres, le restaurant en question apparaissait dans la catégorie «chic». Si, dans un bar, la majorité des visages étaient masculins, alors l'établissement entrait dans la catégorie «gay». (Jetpac sera racheté par Google en 2014).

Identifier l'émotion

La plupart des photos Instagram analysées par Jetpac étaient associées à des données de géolocalisation. En combinant de telles données à celles issues de son système de reconnaissance, Jetpac allait pouvoir, par exemple, répertorier des bars gays à Téhéran. En partageant cette liste, est-ce que Jetpac rendait ou non un service à ses utilisateurs? Du point de vue d'un Iranien homosexuel, savoir dans quel bar il était en sécurité pour révéler son orientation sexuelle avait effectivement tout d'un avantage. Mais les conséquences auraient pu être effroyables si cette liste était tombée dans les mains des mollahs. Si les logiciels de Jetpac ont été capables d'un tel degré de finesse, qu'est-ce qui pourrait empêcher une entreprise ou un gouvernement malintentionné de faire de même?

Des algorithmes peuvent aussi identifier l'émotion que vous ressentez sur une photo ou une vidéo. Voici plusieurs décennies, Paul Ekman, professeur émérite à l'UCSF, avait observé que, dans le monde entier, les expressions faciales des individus confrontés à une situation émotionnellement chargée étaient en tendance identiques, même si certaines ne pouvaient durer qu'une fraction de seconde.

Plus récemment, Ekman aura été embauché comme conseiller scientifique d'une entreprise de San Diego, Emotient, rachetée par Apple en 2016, et dont les logiciels promettent de reconnaître des émotions sur des flux vidéo en temps réel. A l'aide d'un seul appareil haute définition, les algorithmes d'Emotient sont capables de «lire» les émotions de 400 personnes rassemblées en un seul endroit –une salle de conférence ou un centre commercial, par exemple. Aujourd'hui, Emotient travaille à adapter ses algorithmes pour détecter la douleur sur le visage de patients hospitalisés.

Empreintes digitales

Pour leur part, des chercheurs de l'université d'Oxford et de l'Institut de génétique et de médecine moléculaire de l'université d’Édimbourg ont développé une application susceptible de reconnaître une maladie génétique rare sur un visage –par exemple le syndrome de l'X fragile, une cause de retard cognitif touchant 1 garçon sur 4.000 et 1 fille sur 6.000, se caractérisant par des grandes oreilles et un visage allongé.

L'application Im2Calories, développée par Kevin Murphy, chercheur chez Google, transforme les photos de plats en calendrier calorique, et vous permet de sortir au restaurant avec vos amis tout en gardant un œil sur votre santé.

Et en janvier dernier, des chercheurs affiliés à l'Institut japonais d'informatique annonçaient avoir réussi à copier les empreintes digitales d'un individu grâce à une photo prise par un appareil numérique standard à plus de 3 mètres de distance. L'équipe aura été capable de recréer les arches, les tourbillons et les boucles de la peau des doigts avec une résolution suffisante pour débloquer un cadenas biométrique. Selon les scientifiques, d'ici deux ou trois ans, les gens pourront se recouvrir les doigts d'un film à base d'oxyde de titane afin de se protéger des usurpations d'identité.

Sources parfaitement légales

Ce qui précède n'est qu'un florilège des projets de recherche visant à récolter des données dans les photos et les vidéos que nous semons nonchalamment sur internet. La plupart de ces algorithmes nous seront bénéfiques –dans notre vie personnelle, professionnelle ou sur un plan sanitaire, ils nous aideront à prendre de meilleures décisions en nous signalant des informations dont nous n'avons pas conscience. Le problème, c'est si d'autres personnes accèdent à ces informations et prennent, en fonction, des décisions nous concernant sans que nous en soyons informés.

Prendre une photo d'un lieu public ou le filmer n'est pas illégal. Idem pour la photo d'une personne qui vous a accordé sa permission. Il n'est pas non plus illégal d'envoyer ou de stocker cette image dans le cloud. Pareil pour la reconnaissance optique de caractères, la reconnaissance faciale ou la super-résolution. Désormais, nous n'avons tout simplement nulle part où nous cacher.

Ces cent dernières années, nous avons su dépendre du «respect de la vie privée» pour nous protéger des attentions indésirables. Aux États-Unis, la première affaire de ce genre remonte à 1890, lorsque Samuel Warren et Louis Brandeis, anciens partenaires d'un cabinet d'avocats, condamnent dans la Harvard Law Review des intrusions de plus en plus fréquentes dans la vie des gens. Les fautifs? «Des inventions récentes et des techniques commerciales» –dont la photographie et la presse mondaine, alors en plein essor.

Perte de contrôle

À l'instar de nombreuses inventions juridiques, ce respect de la vie privée aura été conçu pour régler un problème personnel: Warren et sa famille avaient récemment fait les frais de chroniques peu flatteuses dans les pages mondaines de divers journaux. Dans quel état auraient été ces juristes à notre époque, où un milliard de photos sont postées tous les jours sur Facebook?

Le respect de la vie privée est une idée formidable, mais elle correspond à un temps où les données étaient rares, les communautés géographiquement circonscrites et la communication coûteuse. Aujourd'hui, la vie n'est plus la même. Impossible d'empêcher les gens de poster des vidéos ou des photos. Et, sur ce plan, peu sont susceptibles de se contraindre, tant leur expression personnelle et leurs interactions sociales risquent ainsi d'en pâtir.

De fait, nous devons commencer à réfléchir sur la manière dont ces images peuvent nous être bénéfiques –et nous focaliser sur des législations proscrivant les discriminations sur la base de données personnelles, pas la collecte de données personnelles en elle-même. Malheureusement, la législation américaine actuelle est un patchwork de protections lacunaires, définies secteur par secteur. La plupart des lois –sur l'assurance maladie ou la protection des données bancaires– n'offre que peu de contrôle aux citoyens américains sur leurs informations personnelles. Et refuser de les communiquer n'est pas vraiment un option.

Exiger plus de transparence

Les évolutions les plus récentes du droit américain obligent les entreprises à informer leurs clients en cas de possible piratage de leurs données et rendent ces entreprises responsables des éventuels dommages financiers attribuables à de telles failles de sécurité. Des objectifs louables, mais totalement insuffisants à une époque de données sociales «sensorisées».

Concernant l'exploitation des données issues de nos images, il est peu probable que des réglementations plus conséquentes soient un jour adoptées par le Congrès. Mais nous pouvons exiger davantage de transparence de la part des entreprises: comment fonctionnent leurs algorithmes d'identification et de reconnaissance et, surtout, pixel par pixel, que permettent-ils d'apprendre sur nous?

Andreas Weigend
Andreas Weigend (1 article)
Directeur du Social Data Lab. Auteur de «Data for the People».
En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies pour réaliser des statistiques de visites, vous proposer des publicités adaptées à vos centres d’intérêt et nous suivre sur les réseaux sociaux. > Paramétrer > J'accepte