Partager cet article

Le nouveau logiciel de Google est capable de légender vos photos tout seul

Google Research Blog

Google Research Blog

Les ordinateurs peuvent faire (beaucoup) de choses à notre place, comme l'illustre la nouvelle invention de Google. Deux groupes de scientifiques de Google et de Stanford ont créé un logiciel capable, non pas de reconnaître un objet sur vos photos, mais d’identifier l’ensemble de la scène et de générer une légende de l’image en anglais, rapporte The New York Times.

Ce nouveau système de sous-titrage, baptisé Neural Legend (NIC), se base sur des techniques de vision par ordinateur et de traitement du langage naturel. Les deux groupes de scientifiques ont ainsi combiné des réseaux de neurones «convolutionnels», un modèle d’apprentissage qui a permis de grandes avancées dans la précision de la vision par ordinateur, explique Gigaom.

Les chercheurs de Google disent s’être inspirés des progrès de la traduction automatique:

«[...]un réseau de neurones récurrent (RNN) transforme une phrase en français en représentation vectorielle, et un second RNN utilise cette représentation pour générer une phrase cible en allemand»

Au lieu du premier réseau linguistique, les chercheurs ont employé un réseau de neurones convolutionnel, qui sert à classer les objets dans les images. L’un des réseaux encodait donc l’image en une représentation compacte, tandis que l’autre générait une phrase de description.

Le système a été expérimenté avec plusieurs bases d’images en ligne. La qualité des légendes descriptives ainsi générées a été estimée satisfaisante par un algorithme qui évalue la qualité des traductions entre les langues.

Cette intelligence artificielle permettrait avant tout d’améliorer la recherche de visuels en ligne, explique le New York Times:

«Les avancées pourraient permettre de mieux cataloguer et rechercher les milliards d’images et de vidéos disponibles en ligne, dont la description et l’archivage sont souvent mauvais. Pour l’instant, les moteurs de recherche comme Google se reposent largement sur le langage écrit qui accompagne une vidéo ou une image pour déterminer ce qu’elle contient»

Selon Gigaom, elle est représentative d’intelligences artificielles qui vont vers de plus en plus de précision:

«Par exemple, alors qu’un système de reconnaissance d’objet classique pourrait être capable de reconnaître un chat et un poisson rouge dans une image, ces nouveaux systèmes hybrides pourraient probablement déterminer que la scène présente en fait un chat qui attrape un poisson dans un bocal. Associé à une base de connaissance qui comprend la relation prédateur-proie entre les deux animaux, ce même sytème pourrait être capable de prédire que le poisson rouge va bientôt être mangé.»

Le New York Times souligne que cette technologie pourrait aussi, à long terme, permettre d’aider les aveugles et les malvoyants à comprendre le contenu d’une image. Les robots intégrés aux voitures pourraient, eux, prendre de meilleures décisions en fonction du contexte.

Mais elle peut aussi avoir des conséquences sur l'efficacité de la surveillance:

«Ces 15 dernières années, les caméras vidéo ont été placées dans un grand nombre d’espaces publics et privés. Dans le futur, le logiciel qui fait fonctionner les caméras ne sera plus seulement capable d’identifier des gens précis via la reconnaissance faciale, disent les experts, mais aussi d’identifier certains types de comportements, peut-être même d’alerter automatiquement les autorités.»

En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies pour réaliser des statistiques de visites, vous proposer des publicités adaptées à vos centres d’intérêt et nous suivre sur les réseaux sociaux. > Paramétrer > J'accepte