L’intelligence artificielle a encore franchi une étape: les ordinateurs peuvent maintenant analyser des images et les décrire avec des phrases très précises.
Début juillet, les chercheurs de Google avaient déjà fait parler d’eux avec Deep Dream, un programme entraîné à reconnaître des formes dans des images (mais qui produit pour le moment surtout des images psychédéliques terrifiantes). Cette fois, ce sont les scientifiques de l’université de Stanford qui ont développé un programme similaire, appelé «NeuralTalk».
Leur logiciel est capable de passer en revue des photos montrant des scènes complexes et d’identifier exactement ce qu’il s’y passe. Devant la photo ci-dessous d’un homme en train de faire du cheval, il peut décrire précisément qu’«un homme chevauche un cheval blanc».
Capture d’écran du site officiel de NeuralTalk | Université de Stanford
Et ça fonctionne aussi avec des images ne montrant aucun visage, seulement des paysages, des objets ou de la nourriture. Ici, l’ordinateur a identifié «une personne qui tient un papier contenant la moitié d’un sandwich et quelques pommes de terre».
Passer en revue des photos complexes et identifier ce qu’il s’y passe
Associer image et texte
Pour parvenir à ce résultat, les chercheurs ont doté leur programme d’un réseau neuronal artificiel capable d’associer images et extraits de texte. Chaque forme va être associée à un terme: «cheval», «fille», «sandwich»... Puis, comme un enfant auquel on montre des livres d’image, l’ordinateur apprend de ses expériences. Une fois les rudiments acquis (ce à quoi ressemble généralement un cheval, une fille ou un sandwich), il peut appliquer cette compréhension à d’autres photos.
Comme un enfant auquel on montre des livres d’image, l’ordinateur apprend de ses expériences
Le système n’est pas encore parfait. Un chat qui mange une banane est identifié comme «un petit chien qui dort dans le salon», une petite fille en pull rose à «un individu à cravate rouge» et un ours polaire sur la glace devient «un chien blanc devant une porte bleue».
Mais, malgré ces imperfections, le système peut avoir un intérêt, notamment de classement. Internet contient une quantité incroyable de contenus visuels. Mais les moteurs de recherche ne peuvent les indexer qu’en fonction des métadonnées et des mots-clefs qui y sont accolés. Avec ce système, les photos deviennent visibles et peuvent être facilement identifiées et classées.
«Je considère que les données contenues dans les pixels des photos et des vidéos sont la matière noire d’Internet, résume Fei-Fei Li, directeur du laboratoire d’Intelligence artificielle de Stanford. Et nous sommes là pour l’illuminer.»
Une illumination qui a, elle aussi, son côté sombre. Il n'y a qu'à imaginer ce que ce programme ouvre comme possibilité en termes de surveillance, les programmes étant par exemple capables de repérer les comportements inhabituels ou dangereux.