Tech & internet

Quand Alexa, l'assistante personnelle d'Amazon saura tout

Entretien avec Al Lindsay, le responsable de l’assistant à commande vocale d’Amazon. Un échange pour faire le point sur ce qu'Alexa entend, ce dont elle se souvient, sa manière d'apprendre et ses pistes de perfectionnements.

<a href="https://unsplash.com/photos/tsBropDpnwE">Enceinte Echo, habitée par l'assistant personnel d'Amazon Alexa. Un espion dans votre maison ?</a> | Andres Urena via Unsplash CC <a href="https://unsplash.com/@andresus">License by</a>
Enceinte Echo, habitée par l'assistant personnel d'Amazon Alexa. Un espion dans votre maison ? | Andres Urena via Unsplash CC License by

Temps de lecture: 9 minutes

Cela fait des années qu’Amazon travaille sur son système d’assistance virtuelle à commande vocale Alexa. C’est grâce à elle que la télévision connectée Fire TV, les enceintes intelligentes Echo et les autres appareils proposés par l’entreprise sont capables de répondre à nos questions et de comprendre ce que nous attendons d’eux.

Nous savons qu’Alexa écoute tout le temps, mais comment pense-t-elle? Et dans quelle mesure est-ce qu’elle se «souvient» de ce qu’elle entend? Cette semaine, dans l’épisode du podcast de Slate.com consacré aux nouvelles technologies If Then, j’ai discuté avec Al Lindsay, le vice-président du logiciel Alexa chez Amazon. Il travaille pour Amazon depuis 2004 et dirige l’équipe d’Alexa depuis 2011. En d’autres termes, c’est lui qui est responsable de la conception de la version Amazon de l’ordinateur omniscient de Star Trek. Lors de cet entretien, nous avons discuté de sa vision des craintes croissantes des utilisateurs en ce qui concerne leur vie privée, de la façon dont Alexa comprend nos ordres, et du rire si inquiétant d’Alexa récemment rapporté par des utilisateurs. Voici une version française abrégée de cet entretien. Retrouvez l’intégralité de la discussion sur iTunes, Stitcher, Spotify, le magasin Google Play et d’autres plateformes de podcast.

Will Oremus: Imaginons que je n’y connaisse rien aux nouvelles technologies. Expliquez-moi ce qui se passe lorsque je demande à mon Amazon Echo: «Alexa, quel temps fait-il aujourd’hui?» 

Al Lindsay: Cela commence quand le logiciel qui fait fonctionner votre appareil, et qui est capable de reconnaître le mot de réveil «Alexa», se réveille. Il vous prévient qu’il écoute en allumant son anneau bleu, ouvre une connexion au cloud, et envoie votre requête à Alexa via le cloud. C’est la première étape, qui consiste à comprendre l’ordre: «Salut, je te parle, je dois faire quelque chose, va sur le cloud, pour qu’Alexa s’en charge».

L’étape suivante consiste à comprendre les mots que vous avez dits, c’est la reconnaissance vocale, que nous appelons ASR, c’est à dire Automatic Speech Recognition. Il s’agit de la compréhension des mots: Alexa s’appuie sur le langage, tente de comprendre quel est l’enchaînement des mots que vous avez prononcés, à la suite de quoi nous les envoyons vers un système que nous appelons «compréhension du langage naturel», qui essaie ensuite de deviner le sens de ces mots. Il doit être capable de comprendre que vous avez dit: «Quel temps fait-il?». Ensuite Alexa pense à la météo, via une application, ce que nous appelons un «skill». Les skills sont comme des applications et elles traitent votre demande. Cette requête est envoyée à l’application météo et elle est capable de trouver l’information et vous donner la réponse.

«Lorsque le mot Alexa est détecté localement, la machine se réveille et se dit : "Ah, c’est à moi qu’on parle".»

Est-ce qu’Alexa «écoute tout le temps»? On entend parfois cette crainte chez les utilisateurs et les autres. 

Ce qui se passe, c’est que le logiciel fonctionne localement sur l’appareil lui-même, et se tient prêt à entendre le mot Alexa. Il n’y a pas de connectivité ou de streaming qui fonctionne à ce moment-là. Quand le son passe par les micros, la machine ne cherche que ce motif-là et si le motif «Alexa» n’est pas entendu, le son ne fait que passer. Ce n’est que lorsque le mot Alexa est détecté localement que la machine se réveille et se dit: «Ah, c’est à moi qu’on parle, il faut que je fasse quelque chose et que je me mette à écouter et à me connecter au cloud.»   

Que repondez-vous au gens qui disent: «Je ne prendrai jamais un Amazon Echo ou Google Home parce que je crains pour la protection de ma vie privée. Je n’aime pas l’idée d’inviter dans mon salon quelque chose qui va connaître toutes ces choses sur moi»...  

Nous prenons la vie privée très au sérieux depuis le début. L’expérience Alexa est conçue pour anticiper cette question et les préoccupations des clients à ce sujet. Beaucoup des décisions que nous avons prises jusqu’alors, et continuerons de prendre, sont centrées sur le fait d’être transparents. Dès le début de l’expérience que j’ai décrite, quand vous prononcez le mot de réveil et que l’anneau bleu s’allume. L’anneau bleu est là pour vous rassurer, comme s’il vous disait: «Salut, je crois que j’ai entendu mon nom. Je viens d’ouvrir une connexion au cloud, pour essayer de répondre à ce que j’ai entendu après ce mot et, je l’espère, vous aider».

Cela va jusque dans la façon transparente dont vous pouvez aller dans l’app, revoir l’intégralité de votre historique de commandes, les supprimer, ou voir comment Alexa les a interprétées. Vous avez dit quelque chose et Alexa a cru que vous aviez dit: «Mets de la musique», mais elle n’a pas bien compris. Vous pouvez voir cela dans votre historique. Il s‘agit simplement d’être transparent et de montrer aux gens ce que fait Alexa, et aussi de leur donner un certain contrôle dessus. Vous pouvez toujours supprimer un historique.

Compris, je crois que ce que vous avez dit, c’est que tant qu’on qu’on a pas prononcé le mot d’allumage «Alexa», quand on est juste dans sa cuisine ou dans son salon avec la machine et qu’elle se tient prête à entendre le mot Alexa, elle écoute tout ce que vous dites, mais cela ne va pas à un serveur distant. Cela reste sur la machine. Est-ce qu’il y a un moyen de savoir si la machine supprime ces données, de façon à ne pas pouvoir être piratées, ou est-ce que quelqu’un peut ouvrir votre Echo et y trouver toutes les choses enregistrées par la machine alors que vous n’essayiez pas de lui parler?

Oui, j’ai utilisé l’expression «ne fait que passer», parce que sans entrer trop dans les détails de cette technologie, elle s’occupe littéralement d’inspecter un motif acoustique. Elle n’a pas la notion des mots prononcés ni de leur sens. Ça, c’est ce qui passe par le cloud. La machine cherche un motif qui correspond à «Alexa». Tout le reste, ce ne sont que des ondes sonores qui passent et qui ne sont pas enregistrées, elles disparaissent lorsqu’elles passent sans que ce motif ne soit reconnu. Ce n’est que quand ce motif est rencontré que la machine ouvre un canal et prend tout ce qui passe à partir de ce point pour l’envoyer au cloud.  

«Plus une commande prononcée est courte, plus il est difficile d’obtenir une reconnaissance automatique fiable»

Beaucoup d'utilisateurs ont récemment fait l’expérience d’un «rire inquiétant» qui émanait de certains appareils Alexa, qui se mettaient à rire sans raison dans leur salon. Visiblement, les gens ont été assez effrayés. Apparemment, la machine pensait avoir entendu le mot «rire» ou l’ordre «Alexa, ris!», alors que ce n’est pas vraiment ce son qu’elle captait. Est-ce bien que ce qui s'est passé?  

Oui, plus une commande prononcée est courte, plus il est difficile d’obtenir une reconnaissance automatique précise et fiable. Si vous dites «mets la chanson de Mary Poppins "Supercalifragilistiqueexpidélilicieux"!», cela sera très facile pour Alexa de la comprendre, car il n’y a rien d’autre qui sonne comme cela. Mais les commandes courtes d’une seule syllabe, à l’image de «ris» peuvent facilement être confondues avec autre chose. Le programme que nous avions fait consistait à faire rire Alexa quand on lui demandait de rire. Je pense que cela a surpris certaines personnes et à présent, nous avons fait en sorte qu’elle dise quelque chose comme «D'accord, je peux rire», avant de rire. 

Le rire inquiétant d'Alexa

Je vous ai entendu décrire votre vision comme la construction d’un ordinateur à la Star Trek, quelque chose qui peut répondre à n’importe quelle question, ou vous aider avec tout ce dont vous pourriez avoir besoin. Cela suggère que vous auriez besoin de quelque chose comme ce que dans l’industrie on appelle l’Intelligence artificielle générale, ou intelligence artificielle dure, une intelligence artificielle qui comprend beaucoup de choses sur le monde et pas seulement douée qu’à une seule chose, comme vous donner la météo ou commander une pizza. Cela dit, vous, votre équipe, semblez avoir choisi une approche progressive, en n’essayant pas de construire un génie avec une intelligence artificielle de bout en bout, mais en travaillant sur un problème à la fois. Peut-être qu’en trouvant un moyen de résoudre assez de petits problèmes, à la fin, ils pourront servir de base à quelque chose qui pourra répondre à presque tout ce qu’on lui demandera. Est-ce une bonne description de votre approche?

Permettez-moi de présenter les choses un peu différemment, parce que lorsqu’il s’agit d’inventions et d’évolutions technologiques majeures, le modèle de représentation que les gens tendent à avoir est celui d’un génie dans un coin qui a une révélation, ou se cogne en tombant et a soudain une vision du condensateur de flux qui permettra le voyage temporel. Mais le plus souvent, cela naît à 99% de la transpiration et seulement 1% de l’inspiration. C’est beaucoup de travail intense. Je ne suis pas sûr que cela soit forcément incrémental. J’ai le sentiment par exemple que quand Echo est arrivé sur le marché en apportant des possibilités de reconnaissance de parole avancées, une technologie de réveil par mot-clef très avancée et une vraiment bonne compréhension de langage naturel, c’étaient de vrais bonds en avant. Je ne les conçois pas comme des avancées incrémentales. Certains des enjeux qu’ils soulevaient étaient auparavant acceptés par la communauté scientifique comme des problèmes insolubles. J’ai l’impression que nous essayons plutôt de nous attaquer d’abord aux problèmes les plus difficiles.

Si sur le long terme Alexa marche aussi bien que votre équipe l’espère, et devient un point d’entrée par lequel nous achetons des choses, par lequel nous effectuons toutes sortes d’actions en ligne, apprenons sur le monde, qu’en est-il de la crainte de donner à Amazon beaucoup de contrôle sur la circulation des informations? Beaucoup de contrôle sur ce que les uns et les autres achètent. Si je demande à Alexa d’acheter une pizza, c’est d’une certaine façon Amazon qui choisit. Quelle est la pizzeria par défaut d’Alexa? Quelles entreprises vont travailler avec Amazon? Comment cela est-il défini? Est-ce qu’on ne peut pas craindre qu’Amazon s’insère comme un intermédiaire extrêmement puissant dans toutes sortes de transactions en ligne?

Quand je pense à Alexa, je pense au paradigme de l’interface de l’utilisateur. Je pense à l’évolution de la technologie, des interfaces par ligne de commande dans les années 70 à l’invention de la souris, du clavier. Et puis il y a eu la mise en place d’internet, les pages et les moteurs de recherche, les écrans tactiles, les iPhones et les tablettes. Je pense que l’interface vocale est une évolution naturelle de ces nouvelles interfaces qui n’est qu’un moyen d’interagir avec les technologies, les plateformes ou les services qui y sont liés. Amazon est aujourd’hui une plateforme de vente formidable qui permet à des commerçants tiers d’y vendre des choses, de la même façon que nous vendons nous-mêmes directement des produits à nos clients sur notre propre plateforme. Je pense qu’ajouter la commande vocale à quelque chose comme la vente en ligne rend les choses plus faciles, plus naturelles pour les clients. 

Une façon de voir cela, comme vous l’avez fait remarquer, consiste à dire que par le passé les gens ont dû apprendre à parler le langage des ordinateurs tandis que maintenant on apprend aux ordinateurs à parler notre langue, afin à ce qu’ils puissent échanger avec nous selon nos propres termes.

C’est une bonne façon de voir les choses.

«Le plus grand défi dans les cinq ans à venir: comment rendre les machines conscientes du contexte?»

Quel est le plus grand défi technique auquel vous devez faire face pour rendre Alexa encore plus intelligente et efficace? Vous avez mentionné quelques avancées importantes qui ont rendu possible l’Amazon Echo. L’une d’entre elles est la possibilité d’entendre quelqu’un parler à l’autre bout de la pièce et d’isoler ce son parmi le bruit ambiant. Une autre est la compréhension du langage naturel, la capacité à analyser grammaticalement des mots et définir ce que le locuteur raconte. Qu’est-ce qui, dans les cinq ou dix ans à venir, va continuer à limiter les possibilités d’un appareil comme Alexa? Aujourd’hui, même si c’est une machine merveilleuse et puissante, quiconque en acquiert une comprend assez vite qu’elle ne peut pas répondre à tout. Beaucoup de demandes entraînent la réponse: «Désolé je ne peux pas répondre à votre question»... Qu’est-ce que qui pourrait évoluer dans un futur proche?

Il me semble que le contexte constitue un défi important. Quand nous parlons avec d’autres humains, il y a de nombreux indices non-verbaux que nous assimilons, une histoire que nous avons avec l’individu en face de nous, des choses que nous avons vécues dans nos vies. Il y a là où on se trouve, ce qu’on fait à ce moment-là. Il y a des choses qui sont difficiles à analyser et comprendre pour une machine, alors que pour un humain, il n’est pas difficile de comprendre ce qui est suggéré ou implicite.

Les ordinateurs ne savent pas encore faire cela aujourd’hui, ils ont du mal à gérer le contexte et les indices non-verbaux, les éléments environnants, les éléments d’actualité, à trier tous ces raccourcis sociaux et à aller au cœur de ce que vous voulez dire. Souvent, nous voulons que l’on entende ce que l’on veut dire plutôt que ce que l’on dit effectivement. Je pense que le plus grand défi auquel devront faire face les fournisseurs d’intelligence artificielle dans les cinq ans à venir c'est: comment pouvons-nous rendre les machines conscientes du contexte?

Avec Alexa, nous avançons pas à pas. Prenons par exemple un cas où il y a plusieurs machines autour de vous et que vous dites «stop». La machine qui vous a entendu ne fait rien à ce moment-là, mais ailleurs dans la pièce il y a un appareil qui joue de la musique. Le contexte est utile et alors Alexa pourrait comprendre qu’il faudrait couper la musique sur l’autre appareil, ou le film qui passe sur la télé connectée. Ce sont de petits exemples, mais de façon plus générale, je pense qu’interpréter le contexte à travers des interactions multiples, et comprendre son environnement, qui est présent et qui ne l’est pas, où vous vous situez géographiquement ou physiquement, les choses au sujet desquelles vous avez eu des affinités auparavant, tout cela va permettre une interface de conversation plus naturelle entre vous et le locuteur artificiel avec qui vous échangez. Vous vous sentirez moins limité dans ce que vous pouvez lui demander. Peut-être que vous pourrez demander n’importe quoi, parler de tout. Peut-être même que vous pourrez avoir une conversation au sujet de l’actualité dans le monde à ce moment-là, du genre «au fait, tu penses quoi de ce qui se passe au Moyen-Orient?» Je pense que c’est le cœur du défi auquel nous faisons face pour passer au niveau suivant.

cover
-
/
cover

Liste de lecture