Tech & internet

«Une jeune fille joue au tennis»: c'est un ordinateur qui a décrit cette image

Temps de lecture : 2 min

Les ordinateurs pouvaient déjà reconnaître notre visage. Maintenant, ils savent ce que l'on fait.

/

L’intelligence artificielle a encore franchi une étape: les ordinateurs peuvent maintenant analyser des images et les décrire avec des phrases très précises.

Début juillet, les chercheurs de Google avaient déjà fait parler d’eux avec Deep Dream, un programme entraîné à reconnaître des formes dans des images (mais qui produit pour le moment surtout des images psychédéliques terrifiantes). Cette fois, ce sont les scientifiques de l’université de Stanford qui ont développé un programme similaire, appelé «NeuralTalk».

Leur logiciel est capable de passer en revue des photos montrant des scènes complexes et d’identifier exactement ce qu’il s’y passe. Devant la photo ci-dessous d’un homme en train de faire du cheval, il peut décrire précisément qu’«un homme chevauche un cheval blanc».

Capture d’écran du site officiel de NeuralTalk | Université de Stanford

Et ça fonctionne aussi avec des images ne montrant aucun visage, seulement des paysages, des objets ou de la nourriture. Ici, l’ordinateur a identifié «une personne qui tient un papier contenant la moitié d’un sandwich et quelques pommes de terre».

Passer en revue des photos complexes et identifier ce qu’il s’y passe

Associer image et texte

Pour parvenir à ce résultat, les chercheurs ont doté leur programme d’un réseau neuronal artificiel capable d’associer images et extraits de texte. Chaque forme va être associée à un terme: «cheval», «fille», «sandwich»... Puis, comme un enfant auquel on montre des livres d’image, l’ordinateur apprend de ses expériences. Une fois les rudiments acquis (ce à quoi ressemble généralement un cheval, une fille ou un sandwich), il peut appliquer cette compréhension à d’autres photos.

Comme un enfant auquel on montre des livres d’image, l’ordinateur apprend de ses expériences

Le système n’est pas encore parfait. Un chat qui mange une banane est identifié comme «un petit chien qui dort dans le salon», une petite fille en pull rose à «un individu à cravate rouge» et un ours polaire sur la glace devient «un chien blanc devant une porte bleue».

Mais, malgré ces imperfections, le système peut avoir un intérêt, notamment de classement. Internet contient une quantité incroyable de contenus visuels. Mais les moteurs de recherche ne peuvent les indexer qu’en fonction des métadonnées et des mots-clefs qui y sont accolés. Avec ce système, les photos deviennent visibles et peuvent être facilement identifiées et classées.

«Je considère que les données contenues dans les pixels des photos et des vidéos sont la matière noire d’Internet, résume Fei-Fei Li, directeur du laboratoire d’Intelligence artificielle de Stanford. Et nous sommes là pour l’illuminer

Une illumination qui a, elle aussi, son côté sombre. Il n'y a qu'à imaginer ce que ce programme ouvre comme possibilité en termes de surveillance, les programmes étant par exemple capables de repérer les comportements inhabituels ou dangereux.

Slate.fr

Newsletters

Les emojis permettent une profonde mutation du langage écrit

Les emojis permettent une profonde mutation du langage écrit

Ces symboles sont devenus essentiels dans la communication des millennials.

Le premier mème de l'histoire date de 1921

Le premier mème de l'histoire date de 1921

Certaines blagues sont intemporelles.

Une soirée pizza peut vous coûter plus cher en données privées qu'en argent

Une soirée pizza peut vous coûter plus cher en données privées qu'en argent

On oublie souvent à quel point chaque geste du quotidien réalisé sur une plateforme numérique met à disposition des hébergeurs des pans entiers de notre vie privée.

Newsletters