Tech & internet / Sciences

«Une jeune fille joue au tennis»: c'est un ordinateur qui a décrit cette image

Temps de lecture : 2 min

Les ordinateurs pouvaient déjà reconnaître notre visage. Maintenant, ils savent ce que l'on fait.

Le logiciel de l’université de Stanford a décrit cette image grâce aux éléments identifiés à l'intérieur: «une jeune fille joue au tennis sur un terrain à l'extérieur» | Université de Stanford

L’intelligence artificielle a encore franchi une étape: les ordinateurs peuvent maintenant analyser des images et les décrire avec des phrases très précises.

Début juillet, les chercheurs de Google avaient déjà fait parler d’eux avec Deep Dream, un programme entraîné à reconnaître des formes dans des images (mais qui produit pour le moment surtout des images psychédéliques terrifiantes). Cette fois, ce sont les scientifiques de l’université de Stanford qui ont développé un programme similaire, appelé «NeuralTalk».

Leur logiciel est capable de passer en revue des photos montrant des scènes complexes et d’identifier exactement ce qu’il s’y passe. Devant la photo ci-dessous d’un homme en train de faire du cheval, il peut décrire précisément qu’«un homme chevauche un cheval blanc».

Capture d’écran du site officiel de NeuralTalk | Université de Stanford

Et ça fonctionne aussi avec des images ne montrant aucun visage, seulement des paysages, des objets ou de la nourriture. Ici, l’ordinateur a identifié «une personne qui tient un papier contenant la moitié d’un sandwich et quelques pommes de terre».

Passer en revue des photos complexes et identifier ce qu’il s’y passe

Associer image et texte

Pour parvenir à ce résultat, les chercheurs ont doté leur programme d’un réseau neuronal artificiel capable d’associer images et extraits de texte. Chaque forme va être associée à un terme: «cheval», «fille», «sandwich»... Puis, comme un enfant auquel on montre des livres d’image, l’ordinateur apprend de ses expériences. Une fois les rudiments acquis (ce à quoi ressemble généralement un cheval, une fille ou un sandwich), il peut appliquer cette compréhension à d’autres photos.

Comme un enfant auquel on montre des livres d’image, l’ordinateur apprend de ses expériences

Le système n’est pas encore parfait. Un chat qui mange une banane est identifié comme «un petit chien qui dort dans le salon», une petite fille en pull rose à «un individu à cravate rouge» et un ours polaire sur la glace devient «un chien blanc devant une porte bleue».

Mais, malgré ces imperfections, le système peut avoir un intérêt, notamment de classement. Internet contient une quantité incroyable de contenus visuels. Mais les moteurs de recherche ne peuvent les indexer qu’en fonction des métadonnées et des mots-clefs qui y sont accolés. Avec ce système, les photos deviennent visibles et peuvent être facilement identifiées et classées.

«Je considère que les données contenues dans les pixels des photos et des vidéos sont la matière noire d’Internet, résume Fei-Fei Li, directeur du laboratoire d’Intelligence artificielle de Stanford. Et nous sommes là pour l’illuminer

Une illumination qui a, elle aussi, son côté sombre. Il n'y a qu'à imaginer ce que ce programme ouvre comme possibilité en termes de surveillance, les programmes étant par exemple capables de repérer les comportements inhabituels ou dangereux.

Slate.fr

Newsletters

Les prochaines élections américaines se passeront-elles de vote électronique?

Les prochaines élections américaines se passeront-elles de vote électronique?

Responsables politiques et spécialistes de la cybersécurité prônent un retour au papier.

Huawei veut créer l’anti-Google Maps

Huawei veut créer l’anti-Google Maps

Son service va être dévoilé en octobre, mais ne s'adressera pas directement au public.

Des youtubeurs LGBT attaquent YouTube pour discrimination

Des youtubeurs LGBT attaquent YouTube pour discrimination

La plateforme démonétise et restreint l'accès des vidéos proposant des contenus LGBT+, les considérant par défaut comme «inappropriées» et «sexuellement explicites».

Newsletters