Tech & internet / Sciences

«Une jeune fille joue au tennis»: c'est un ordinateur qui a décrit cette image

Temps de lecture : 2 min

Les ordinateurs pouvaient déjà reconnaître notre visage. Maintenant, ils savent ce que l'on fait.

Le logiciel de l’université de Stanford a décrit cette image grâce aux éléments identifiés à l'intérieur: «une jeune fille joue au tennis sur un terrain à l'extérieur» | Université de Stanford

L’intelligence artificielle a encore franchi une étape: les ordinateurs peuvent maintenant analyser des images et les décrire avec des phrases très précises.

Début juillet, les chercheurs de Google avaient déjà fait parler d’eux avec Deep Dream, un programme entraîné à reconnaître des formes dans des images (mais qui produit pour le moment surtout des images psychédéliques terrifiantes). Cette fois, ce sont les scientifiques de l’université de Stanford qui ont développé un programme similaire, appelé «NeuralTalk».

Leur logiciel est capable de passer en revue des photos montrant des scènes complexes et d’identifier exactement ce qu’il s’y passe. Devant la photo ci-dessous d’un homme en train de faire du cheval, il peut décrire précisément qu’«un homme chevauche un cheval blanc».

Capture d’écran du site officiel de NeuralTalk | Université de Stanford

Et ça fonctionne aussi avec des images ne montrant aucun visage, seulement des paysages, des objets ou de la nourriture. Ici, l’ordinateur a identifié «une personne qui tient un papier contenant la moitié d’un sandwich et quelques pommes de terre».

Passer en revue des photos complexes et identifier ce qu’il s’y passe

Associer image et texte

Pour parvenir à ce résultat, les chercheurs ont doté leur programme d’un réseau neuronal artificiel capable d’associer images et extraits de texte. Chaque forme va être associée à un terme: «cheval», «fille», «sandwich»... Puis, comme un enfant auquel on montre des livres d’image, l’ordinateur apprend de ses expériences. Une fois les rudiments acquis (ce à quoi ressemble généralement un cheval, une fille ou un sandwich), il peut appliquer cette compréhension à d’autres photos.

Comme un enfant auquel on montre des livres d’image, l’ordinateur apprend de ses expériences

Le système n’est pas encore parfait. Un chat qui mange une banane est identifié comme «un petit chien qui dort dans le salon», une petite fille en pull rose à «un individu à cravate rouge» et un ours polaire sur la glace devient «un chien blanc devant une porte bleue».

Mais, malgré ces imperfections, le système peut avoir un intérêt, notamment de classement. Internet contient une quantité incroyable de contenus visuels. Mais les moteurs de recherche ne peuvent les indexer qu’en fonction des métadonnées et des mots-clefs qui y sont accolés. Avec ce système, les photos deviennent visibles et peuvent être facilement identifiées et classées.

«Je considère que les données contenues dans les pixels des photos et des vidéos sont la matière noire d’Internet, résume Fei-Fei Li, directeur du laboratoire d’Intelligence artificielle de Stanford. Et nous sommes là pour l’illuminer

Une illumination qui a, elle aussi, son côté sombre. Il n'y a qu'à imaginer ce que ce programme ouvre comme possibilité en termes de surveillance, les programmes étant par exemple capables de repérer les comportements inhabituels ou dangereux.

Newsletters

Un homme braque une épicerie avec un vieux pistolet Nintendo

Un homme braque une épicerie avec un vieux pistolet Nintendo

Un accessoire que tous les jeunes des années 1980 ont probablement déjà eu en main.

«J'ai trompé ma copine avec un chatbot»

«J'ai trompé ma copine avec un chatbot»

L'infidélité se réinvente.

Fouiller dans le téléphone de son ou sa partenaire est-il un délit?

Fouiller dans le téléphone de son ou sa partenaire est-il un délit?

Souvent banalisé, mais assez couramment effectué, le «snooping» n'est pas si anodin, surtout dans un contexte de violences conjugales.

Podcasts Grands Formats Séries
Slate Studio