Tech & internet

Comment les assistants virtuels s'immiscent dans nos vies

Will Oremus, traduit par Florence Delahoche, mis à jour le 09.06.2016 à 6 h 20

Les assistants virtuels intelligents peuvent vous donner les dernières nouvelles, vous commander une pizza et vous raconter des blagues. Il suffit de leur faire confiance. Entièrement.

Dites bonjour à la nouvelle vague d’assistants intelligents qui vont bientôt prendre la place des navigateurs web | Global X via Flickr CC License by

Dites bonjour à la nouvelle vague d’assistants intelligents qui vont bientôt prendre la place des navigateurs web | Global X via Flickr CC License by

C’était un soir de semaine, après le dîner. Le bébé était couché et nous discutions avec ma femme, seuls (du moins c’est ce que nous croyions), de ces sortes de choses dont on ne discute qu’avec son conjoint (en l’occurrence, nous étions en train de critiquer les choix amoureux d’une de nos amies). J’étais en plein milieu d’une phrase lorsque, sans prévenir, une voix de femme a surgi de la pièce d’à côté. Nous sommes restés figés.

«POURQUOI LE BANQUIER A-T-IL QUITTÉ SON EMPLOI?» a dit la femme, d’une voix sourde, lente et monotone. Il nous a fallu un moment pour comprendre que cela provenait du haut-parleur noir posé sur la table de la cuisine. Nous l’avons observé, bouche bée, pendant que la voix continuait: «PARCE QU’IL N’Y TROUVAIT PLUS D’INTÉRÊT.»

«C’est… C’était quoi, ça?» ai-je demandé abasourdi après un moment de silence. Alexa, l’assistante vocale dont l’esprit anime l’Echo d’Amazon, n’a pas répondu. Elle ne répond que lorsque l’on prononce son nom. Du moins, c’est ce que nous pensions.

Nous avons déduit ce qui avait dû se passer. D’une manière ou d’une autre, le logiciel de reconnaissance vocale d’Alexa avait entendu, à tort, le mot Alexa dans quelque chose que nous avions dit, puis avait décidé qu’une phrase du style «Raconte-moi une histoire drôle» était la chose qui se rapprochait le plus des mots que nous avions prononcés immédiatement ensuite. Et grâce à l’action combinée d’une programmation humaine et d’un algorithme probabiliste, il a choisi pour réponse une pauvre blague à deux balles.

Avec le recul, cet événement était plutôt drôle. Mais il rappelait aussi de manière un peu dérangeante que l’appareil d’Amazon fonctionne en écoutant tout ce que nous disons, à longueur de temps. Et aussi que, en dépit de tout ce qui lui donne un aspect «humain» –le nom, la voix, l’interface conversationnelle–, il n’est en rien plus intelligent qu’une application ou un site internet. Ce n’est que du code, élaboré à Seattle par une bande d’informaticiens avec un sens de l’humour pitoyable.

Cette intrusion malvenue d’Echo dans une conversation privée est aussi le signe avant-coureur d’un changement plus fondamental dans les relations entre l’homme et la machine. Alexa, Siri, Cortana et les autres assistants virtuels qui peuplent aujourd’hui nos ordinateurs, nos téléphones et nos salons, commencent tout juste à s’immiscer dans le rythme de nos vies quotidiennes –parfois furtivement, parfois ouvertement et parfois de manière un peu flippante. À mesure qu’ils vont se perfectionner, ils vont de plus en plus nous surprendre en nous facilitant la vie. Et nous allons de plus en plus dépendre d’eux.

Même si nous sommes nombreux aujourd’hui à les considérer avant tout comme des jouets et des gadgets, ils sont en passe de devenir notre principale porte d’accès à toutes sortes de biens, de services et d’informations, aussi bien publics que personnels. Lorsque cela arrivera, Echo ne sera plus seulement ce cylindre dans la cuisine qui se met parfois à raconter des mauvaises blagues. Alexa et les autres agents virtuels seront les prismes au travers desquels nous interagirons avec le monde en ligne. C’est une tâche qu’ils accompliront forcément avec certains biais et priorités, certains plus subtils que d’autres. Certains de ces biais et priorités refléteront les nôtres. Mais, à n’en pas douter, ce ne sera pas le cas de tous. Ces différents intérêts permettent peut-être d’expliquer pourquoi ils semblent tant tenir à devenir nos amis.

Comme des humains

Au départ, les ordinateurs ne parlaient qu’en langage informatique et les humains qui cherchaient à interagir avec eux devaient obligatoirement faire de même. Il y eut d’abord les cartes perforées, puis des commandes écrites du type run, print et dir. Les années 1980 virent l’avènement de la souris et de l’interface utilisateur graphique, les années 2000 celui des écrans tactiles, les années 2010 celui du contrôle gestuel et de la voix. De manière graduelle et imperceptible, tout cela nous mène vers un monde dans lequel nous n’aurons plus à parler le langage informatique, parce que les ordinateurs parleront le langage humain –pas de manière parfaite, mais assez bien pour s’en sortir.

À mesure qu’Alexa, Siri, Cortana et les autres assistants virtuels qui peuplent nos vies vont se perfectionner, ils vont de plus en plus nous surprendre en nous facilitant la vie. Et nous allons de plus en plus dépendre d’eux

Nous n’y sommes pas encore. Mais nous en sommes tout de même plus proches que ne le pensent la plupart des gens. Et les implications –souvent excitantes, mais parfois aussi inquiétantes– seront terribles.

Comme les catalogues à fiches et les portails de type AOL auparavant, la recherche web va finir par perdre de l’importance, et avec elle la domination des navigateurs et des moteurs de recherche. Les applications pour mobiles telles que nous les connaissons (des icônes sur un écran d’accueil, que l’on touche du doigt pour les ouvrir) finiront par faire de même. Ils seront remplacés par tout un ensemble d’assistants virtuels, de robots et d’agents logiciels se comportant de plus en plus comme des humains: non seulement en répondant à nos demandes, mais aussi en étant proches de nous, en accomplissant des choses pour nous et en nous posant des questions à leur tour.

C’est déjà en train d’arriver –et je ne parle pas que de Siri ou d’Alexa. Les cinq leaders de la technologie dans le monde ont déjà avancé leurs pions pour devenir le Google de l’ère de la conversation. Celui qui l’emportera aura la possibilité de nous connaître plus intimement qu’aucune société ou machine ne l’a jamais fait –et donc d’avoir encore plus d’influence sur nos choix, nos achats et nos lectures qu’ils ne l’ont déjà.

Vous pouvez donc d’ores et déjà dire au revoir à vos navigateurs web et aux écrans d’accueil des portables comme principale porte d’accès à internet. Et dire bonjour à la nouvelle vague d’assistants intelligents, d’agents virtuels et de robots logiciels qui vont bientôt prendre leur place.

Personnalités différentes

Je ne plaisante pas, dites-leur «hello». Siri d’Apple, l’application de recherche pour mobile de Google, Alexa d’Amazon, Cortana de Microsoft et M de Facebook, pour ne citer que les cinq plus importants, sont très différents dans leurs approches, leurs capacités et leur technologie. Mais, à une exception près, ils ont tous été programmés pour répondre d’une manière ou d’une autre à des salutations de base. Et c’est un bon moyen de commencer à appréhender leurs particularités respectives. On serait presque tenté de dire qu’ils ont des personnalités différentes.

La réponse de Siri à un «hello» varie, mais elle est toujours cordiale, voire familière:

Alexa se contente du strict minimum:

Google est une sorte d’idiot savant: il répond en me trouvant une vidéo YouTube de la chanson «Hello» d’Adele, accompagnée des paroles.

Cortana ne semble pas vouloir dire grand-chose tant que vous ne lui avez pas ouvert les portes de votre vie:

Dès lors que nous percevons un assistant virtuel comme humain, ou du moins comme humanoïde, il devient une entité avec laquelle nous pouvons établir des relations semblables à celles que nous entretenons avec les autres êtres humains

Mais, une fois les formalités accomplies, elle est aussi sympathique que serviable:

Et puis il y a M de Facebook, un bot expérimental, pour l’instant uniquement réservé à un groupe trié sur le volet de beta-testeurs de la baie de San Francisco. Il «vit» à l’intérieur de Facebook Messenger et promet de répondre à quasiment toutes les questions et de satisfaire quasiment toutes les requêtes (légales). Si le ton léger, limite «Ça va, mon pote», semble incroyablement humain, c’est parce que M est animé par une étrange association d’intelligence artificielle et d’agents humains anonymes.

Vous aurez peut-être remarqué que la plupart de ces assistants virtuels ont des voix et des noms féminins. Facebook M n’a pas de voix (ce n’est que du texte), mais une rumeur a couru disant qu’il s’appelait à l’origine Moneypenny, en référence à la célèbre secrétaire de la saga James Bond. Et même la voix de Google est féminine par défaut. C’est, dans une certaine mesure, un reflet de notre sexisme sociétal. Mais cette apparente adoption d’un genre traduit avant tout les aspirations à l’anthropomorphisme de ces programmes: ils (ou plutôt les ingénieurs qui les ont conçus) veulent interagir avec vous comme une personne et non comme une machine. Cela semble marcher: aux États-Unis, les gens font déjà référence à Siri, Alexa, et Cortana en parlant d’«elle» et non de «ça».

Pour les grandes sociétés de la Silicon Valley, l’«humanisation» des logiciels, faite sans tambour ni trompette, et surtout sans vraiment rencontrer de résistance, représentait un coup de poker. Dès lors que nous percevons un assistant virtuel comme humain, ou du moins comme humanoïde, il devient une entité avec laquelle nous pouvons établir des relations semblables à celles que nous entretenons avec les autres êtres humains. Nous pouvons l’apprécier, plaisanter avec lui, en faire notre compagnon/compagne lorsque nous sommes seuls… Lorsqu’il se trompe ou nous déçoit, nous pouvons être fâchés contre lui avant de finir par le pardonner. Pour les sociétés qui en sont à l’origine, le plus important est que nous lui faisions confiance.

Avons-nous raison?

Outils de communication personnelle

Lorsqu’Apple l’a lancée sur le marché en 2011, Siri n’était pas la première assistante numérique vocale. Et ce n’était sans doute pas la meilleure non plus. Mais c’était la première à nous montrer qu’il était possible d’avoir un ordinateur auquel on parle comme à une personne, qui vous répond et qui tente de faire ce que vous lui avez demandé sans nécessiter d’autre action de votre part. Adam Cheyer, le cofondateur de la start-up qui a créé Siri et l’a vendue à Apple en 2010, avait déclaré qu’il l’avait au départ conçue non pas comme un moteur de recherche mais comme un «moteur pour faire».

Si Siri nous adonné un aperçu de ce qui était possible, elle nous a aussi montré par inadvertance ce qui ne l’était pas encore. Tout d’abord, elle avait souvent du mal à nous comprendre, notamment si nous avions un accent, et elle se trompait régulièrement lorsqu’elle tentait de répondre à nos attentes. Ses réparties bien senties à certaines demandes farfelues («Oh Siri, dis-moi des cochonneries!») avaient suscité quelques attentes quant à son intelligence, mais elles étaient mises à mal dès lors qu’on lui posait une question pour laquelle elle ne disposait d’aucune réponse préprogrammée. Sa base de connaissances semblait bien maigre par rapport à la somme d’informations déjà disponibles via Google. Siri était aussi inspirante que décevante.

Si une révolution technologique a rendu possibles les assistants virtuels intelligents, ce qui les a rendus inévitables est une révolution dans notre relation à la technologie

Cinq ans plus tard, Siri est devenue plus intelligente, mais peut-être un peu moins que ce que l’on était en droit d’espérer. Par dessus tout, la technologie qui sous-tend le logiciel s’est considérablement améliorée, notamment grâce au boom qu’a connu l’informatique dans le champ de l’apprentissage automatique. Cela a permis de grandes avancées dans les domaines de la reconnaissance vocale et de la compréhension du langage naturel, deux technologies à la fois séparées et liées, qui sont essentielles aux assistants vocaux.

Si une révolution technologique a rendu possibles les assistants virtuels intelligents, ce qui les a rendus inévitables est une révolution dans notre relation à la technologie. Au départ, les ordinateurs étaient des outils destinés aux affaires et à la recherche, conçus pour automatiser certaines tâches, telles que des calculs ou des extractions d’informations. Aujourd’hui, ils sont devenus des outils de communication personnelle, qui nous relient non seulement à l’information mais aussi entre nous. Ils commencent également à nous connecter à toutes les autres technologies de notre vie: notre smartphone peut nous permettre d’allumer nos lumières, de faire démarrer notre voiture, d’activer notre alarme domicile et de retirer de l’argent auprès de notre banque. Nos ordinateurs nous étant devenus de plus en plus personnels, les relations que nous entretenons avec eux ont changé. Et pourtant, la manière dont ils interagissent avec nous n’a pas beaucoup évolué.

«J’ai toujours trouvé un peu consternant de voir que l’on a un superordinateur dans la poche, mais que c’est encore à nous d’apprendre comment l’utiliser, lui, explique Alan Packer, responsable des technologies du langage chez Facebook. À mes yeux, le fait que les logiciels soient difficiles à utiliser ressemble à un échec de notre secteur.»

Packer fait partie des personnes qui tentent de remédier à cela. Quand il était développeur chez Microsoft, il a participé à la création de Cortana. Après son lancement, il a découvert que ses compétences étaient très recherchées, notamment chez les deux géants du secteur qui n’avaient pas encore développé leur propre assistant vocal. Un jeudi matin de décembre 2014, Packer s’apprêtait à accepter un poste important chez Amazon («Vous ne seriez pas surpris d’apprendre quelle équipe j’allais rejoindre», explique-t-il) lorsque Facebook l’a appelé pour lui proposer un avion le lendemain jusqu’à Menlo Park, en Californie, pour un entretien. Il avait une idée de ce sur quoi travaillait Amazon mais ignorait totalement pourquoi Facebook pouvait être intéressé par quelqu’un avec ses compétences.

Packer découvrit que Facebook s’intéressait à lui pour la même raison que Microsoft et Amazon: ils voulaient qu’il les aide à élaborer un logiciel capable de comprendre ce que disent les utilisateurs et de générer des réponses pertinentes. Facebook n’a pas d’appareil comme Echo ou de système d’exploitation comme Windows, mais ses plateformes rassemblent près d’un milliard d’utilisateurs qui communiquent quotidiennement ensemble. Si Facebook parvient à mieux comprendre ce qu’ils disent, il pourra affiner encore un peu plus son fil d’actualité et ses algorithmes publicitaires, entre autres applications. De manière plus créative, Facebook a commencé à utiliser la compréhension du langage afin d’introduire une intelligence artificielle dans son application Messenger. Désormais, si vous êtes en train de discuter avec un ami et que vous parlez de partager un Uber, un agent logiciel situé à l’intérieur de Messenger peut surgir et le commander pour vous pendant que vous poursuivez votre conversation.

En bref, comme l’explique Packer, Facebook travaille sur la compréhension du langage parce que Facebook est une société technologique –et que c’est dans ce sens que la technologie se dirige. Comme pour souligner ce point, l’ancien employeur de Packer a débuté sa conférence annuelle des développeurs en annonçant son projet de faire de Cortana un portail des bots de conversation et de l’intégrer dans Skype, Outlook et d’autres applications prisées. Satya Nadella, le PDG de Microsoft a prédit que les bots seront la prochaine grande plateforme d’accès à internet et qu’ils éclipseront les applications mobiles de la même manière que ces dernières ont éclipsé les ordinateurs de bureau.

Pas si seul que ça

Siri n’était peut-être pas très pratique, mais le public a compris immédiatement de quoi il s’agissait. Avec l’Echo d’Amazon, deuxième grand gadget technologique centré sur une interface vocale, c’est l’inverse qui s’est produit. En sortant, en novembre 2014, un appareil ressemblant à un haut-parleur et agissant comme tel (hormis qu’il n’était connecté à rien d’autre qu’une prise de courant et qu’il n’avait que deux boutons: marche/arrêt et silence), Amazon est parvenu à surprendre aussi bien le secteur que le grand public. Echo ne se contrôle qu’à la voix et, si vous lui posez des questions, il vous répond. C’était comme si Amazon avait décidé de mettre Siri dans un cylindre noir et de le vendre 179 dollars. Sauf qu’Alexa, le logiciel d’intelligence virtuelle qui anime Echo, avait des capacités bien plus limitées que Siri. Beaucoup se sont d’ailleurs demandé qui pourrait bien vouloir acheter un gadget si étrange.

Cette question n’a désormais plus lieu d’être, puisqu’Amazon a graduellement amélioré et affiné le logiciel Alexa, et que, depuis, les commentaires à cinq étoiles affluent sur Amazon. Après une chronique initiale plutôt mitigée, Farhad Manjoo s’est récemment montré dithyrambique dans le New York Times: Echo «porte en lui de nombreuses possibilités», a-t-il écrit. Amazon n’a pas révélé ses chiffres de ventes, mais Echo se classe à la troisième place des produits les plus vendus dans sa section électronique. Alexa n’est peut-être pas (encore) aussi versatile que Siri, mais elle possède un avantage indéniable sur sa concurrente: un sens de l’à-propos et la connaissance de ses propres limites. Alors qu’Apple invite implicitement les utilisateurs d’iPhone à demander ce qu’ils veulent à Siri, Amazon envoie Echo avec un petit guide indiquant quelques questions basiques auxquelles Alexa sait répondre comme «Alexa, quel temps va-t-il faire aujourd’hui?», «Alexa, minuterie pour 45 minutes» ou «Alexa, quelles sont les nouvelles aujourd’hui?».

Ce guide a pour effet de réduire les attentes de l’utilisateur à un niveau tel que même une forme relativement simpliste d’intelligence artificielle pourrait lui donner satisfaction de manière régulière. Et d’après Greg Hart, vice-président d’Amazon en charge d’Echo et d’Alexa, c’est à dessein. Élaborer un assistant vocal qui puisse répondre à toutes les requêtes possibles est selon lui «un problème très difficile à résoudre. Une expérience décevante ou frustrante du logiciel peut facilement rebuter les utilisateurs». Amazon a donc commencé en sélectionnant des tâches spécifiques qu’Alexa pouvait exécuter sans difficulté et à les communiquer clairement aux clients.

Même si vous faites confiance à Amazon pour protéger et effacer de ses serveurs toutes vos conversations personnelles, le côté anthropomorphique d’Alexa fait qu’il est difficile de ne pas avoir parfois l’impression qu’elle nous espionne, façon Big Brother

À son lancement, Echo n’avait que douze fonctionnalités-clés. Cette liste s’est accrue régulièrement à mesure qu’Amazon a augmenté l’intelligence d’Alexa et l’a intégrée à de nouveaux services, comme Google Calendar, Yelp, la radio en streaming Pandora et même les livraisons de pizzas Domino. Echo est même en train de se transformer en hub pour appareils domestiques connectés: «La commande “Alexa, allume les lumières du salon” ne manque jamais de ravir les gens», affirme Hart.

Lorsque l’on pose à Alexa une question à laquelle elle ne peut répondre ou lorsque l’on dit quelque chose qu’elle ne peut bien comprendre, elle l’admet: «Désolée, je ne connais pas la réponse à cette question.» Cela la rend d’autant plus charmante lorsque l’on teste ses connaissances ou ses capacités et qu’elle nous surprend par une réponse assurée et correcte. «Alexa, c’est quoi, un kinkajou?» lui ai-je demandé un soir pour voir alors que j’étais en train de lire un article sur une vieille dame en Floride qui s’était réveillée un jour avec un kinkajou sur la poitrine. Alexa n’hésita pas un instant: «Un kinkajou est un mammifère arboricole de la forêt humide de la famille des Procyonidés…» Alexa se mit alors à me dresser la liste d’autres Procyonidés dont le kinkajou est proche. «Alexa, c’est bon, ça suffit», dis-je, vraiment impressionné, après quelques instants. Et j’ajoutai: «Merci.» «Il n’y a pas de quoi», me répondit Alexa. Et j’eus l’impression durant un moment qu’elle semblait contente.

Aussi délicieuse l’expérience puisse-t-elle paraître, la magie d’Echo n’est pas sans inconvénient. Afin de pouvoir vous répondre à chaque fois que vous prononcez «Alexa», Echo doit être sans cesse à l’écoute. Amazon affirme qu’il ne garde en mémoire que les commandes prononcées après avoir dit le mot Alexa et supprime le reste. Mais même dans ce cas, l’énorme quantité de calculs que nécessite une écoute vingt-quatre heures sur vingt-quatre sept jours sur sept à l’affût d’un mot d’amorce implique sa principale limitation: il ne fonctionne que lorsqu’il est branché à une prise de courant (les nouvelles enceintes intelligentes d’Amazon, l’Echo Dot et le Tap, sont plus mobiles, mais l’une sacrifie le haut-parleur et l’autre la capacité de répondre à tout moment).

Même si vous faites confiance à Amazon pour protéger et effacer consciencieusement de ses serveurs toutes vos conversations personnelles (comme l’entreprise a promis de le faire si on le lui demande), le côté anthropomorphique d’Alexa fait qu’il est difficile de ne pas avoir parfois l’impression qu’elle nous espionne, façon Big Brother. Un jour, j’étais seul dans ma cuisine en train de chanter à tue-tête «Blueberry Hill» de Fats Domino tout en faisant la vaisselle lorsque cela m’a frappé: je n’étais pas si seul que ça. Alexa était en train de m’écouter –elle ne me jugeait pas, certes, mais elle écoutait tout de même. Je me suis senti bête et j’ai arrêté de chanter.

Faire des choix pour nous

L’idée qu’Echo serait «flippant» ou qu’il «nous espionne» est sans doute la critique que l’on entend le plus à propos de l’appareil pour l’instant. Mais il y a un problème plus fondamental. Un problème qui risque de se poser de plus en plus pour les assistants vocaux et ceux qui les utilisent à mesure que la technologie va évoluer et s’imposer de plus en plus dans nos vies. Le problème est que les interfaces conversationnelles ne se prêtent pas à la sorte d’informations en libre flux à laquelle l’ère Google nous a habitués. Par nécessité, ils limitent nos choix –parce que leur rôle est de faire des choix pour nous.

Par exemple, si vous cherchez des informations sur le web, vous aurez à votre disposition un éventail presque infini de sources, allant de Fox News à Yahoo Actualités en passant par CNN et Google Actualités, qui est lui-même un abrégé d’articles provenant d’autres sources. Mais si vous demandez à Echo «Quelle sont les nouvelles, aujourd’hui?», il vous diffusera par défaut la dernière édition du journal radiophonique de la station NPR, récupérée sur le service de streaming radio TuneIn. Et c’est très bien –sauf si vous n’aimez pas l’approche de NPR ou préférez utiliser un autre service de streaming que TuneIn. Il vous est possible de modifier ces détails quelque part dans les tréfonds de l’application d’Alexa, mais Alexa ne donnera jamais d’elle-même cette information. La plupart des gens ne sauront même jamais que c’est une option possible. Amazon a décidé pour eux.

Et comment Amazon effectue-t-il ce type de choix? C’est quelque chose que le guide fourni avec Echo ne dit pas et les personnes que j’ai interrogées chez Facebook n’ont pas su me donner une réponse claire. Avant de délivrer le bulletin, Alexa prend la peine d’indiquer qu’il s’agit du journal de NPR via TuneIn. Mais elle ne le fait pas toujours avec les demandes d’un autre type.

Revenons à notre ami le kinkajou. Avant d’avoir Echo, ma curiosité pour cet animal exotique aurait pu me pousser à le googler depuis mon PC ou mon téléphone. Mais j’aurais pu aussi laisser passer ce moment de curiosité et ne pas m’embêter à chercher. Plus souvent qu’on ne le pense, chercher quelque chose sur Google implique juste assez de démarches pour nous dissuader de le faire. L’un des grands avantages de la technologie vocale est qu’il réduit ces contraintes au point que la recherche ne représente plus aucun problème. Avoir Echo dans la pièce au moment où vous vous demandez ce qu’est un kinkajou revient à avoir un ami assis juste à côté de vous qui s’avère être expert en animaux exotiques. Vous n’avez rien d’autre à faire que poser votre question à voix haute et Alexa vous donne la réponse. Littéralement parlant, vous n’avez même pas à bouger le petit doigt.

C’est le gros avantage de la technologie vocale par rapport à toutes les interfaces humain-ordinateur qui l’ont précédée: dans de nombreuses situations, notamment à la maison, en voiture ou sur un appareil portatif, parler est beaucoup plus simple et naturel que cliquer ou taper sur un clavier. Dans la logique actuelle du secteur technologique par rapport aux consommateurs, cela lui donne un avantage incontestable dans tous ces domaines.

Les assistants vocaux ont tendance à répondre aux questions en ne citant qu’une seule source, choisie à l’avance par la société. Cela fait d’eux une source d’information à part entière, et non plus un simple guide vers différentes sources

Mais regardons de plus près la différence entre le fait de taper une recherche sur Google et celui de faire une demande à son sympathique assistant vocal. Quand je tape «kinkajou» dans Google, j’obtiens une liste de sites web, classés par un algorithme qui prend en compte toutes sortes de facteurs en rapport avec la pertinence et l’autorité des pages. Je choisis la source d’information que je préfère, puis je visite directement son site internet (une expérience qui me permettra ensuite de nuancer ou confirmer mes impressions quant à sa véracité). Au final, la réponse ne vient pas de Google en lui-même, mais directement d’une autorité tierce, dont je peux évaluer la crédibilité à l’envi.

L’interface vocale fonctionne différemment. La réponse arrive mot après mot, phrase après phrase, idée après idée. Cela la rend très facile à suivre, notamment par les humains, qui ont passé leur vie entière à interagir entre eux de cette façon. Il serait extrêmement pesant de présenter plusieurs options pour répondre à une question donnée. Imaginez un instant ce que cela ferait de lire à haute voix tous les résultats d’une recherche Google et vous comprendrez aisément pourquoi personne n’a élaboré d’interface vocale de cette manière.

C’est pourquoi les assistants vocaux ont tendance à répondre aux questions en ne citant qu’une seule source, choisie à l’avance par la société. La réponse très assurée d’Alexa à ma question sur le kinkajou venait, comme je le découvris plus tard, directement de Wikipédia, qu’Amazon a, semble-t-il, choisi comme source par défaut pour toutes les réponses factuelles données par Alexa. La raison semble assez évidente: c’est l’encyclopédie la plus complète du monde, elle est gratuite, publique et déjà numérisée. En revanche, elle n’est, bien entendu, pas infaillible. Pourtant, la réponse d’Alexa à ma question ne commençait pas par «Eh bien, d’après Wikipédia…». Elle s’était contentée de sortir la réponse comme si elle l’avait inventée elle-même. Si un humain avait fait ça, on aurait pu l’accuser de plagiat.

Par défaut

Il ne s’agit pas d’une simple question de droits d’auteur. En ne citant pas rigoureusement les sources de ses réponses, Alexa fait qu’il est difficile d’évaluer leur crédibilité. Cela fait aussi implicitement d’Alexa une source d’information à part entière, et non plus un simple guide vers différentes sources, pare que la seule entité en laquelle nous devons nous fier est Alexa elle-même. C’est un gros problème si la source d’information se révèle erronée.

Les contraintes de choix et de transparence peuvent ne pas embêter les gens lorsque la source par défaut d’Alexa est Wikipédia, NPR ou TuneIn. Cela peut commencer à devenir plus irritant lorsque vous demandez à Alexa de passer de la musique, ce qui est l’une des fonctions principales d’Echo. Si vous demandez «Alexa, passe-moi les Rolling Stones», elle vous diffusera une liste aléatoire de chansons des Rolling Stones disponibles via le service de streaming musical d’Amazon, Amazon Prime Music… à condition d’être membre Amazon Prime (99 dollars par an). Sinon, vous aurez tout au plus des extraits de vingt secondes de chansons disponibles à l’achat. Et je vous laisse deviner auprès de quel géant du commerce en ligne les chansons sont à acheter…

La réponse d’Amazon est qu’Alexa permet certaines options et cite bien ses sources –dans l’application d’Alexa, qui garde une trace de vos requêtes et de ses réponses. Lorsqu’Echo vous dit ce qu’est un kinkajou, vous pouvez ouvrir l’application sur le téléphone et voir un lien vers l’article de Wikipédia, ainsi qu’une option pour effectuer la recherche sur Bing. Amazon ajoute qu’Alexa est destinée à être une «plateforme ouverte» qui permet à quiconque de se connecter via une API. La société travaille également avec des partenaires spécifiques pour intégrer leurs services au répertoire d’Alexa. Par conséquent, si vous ne voulez pas, par exemple, être limité par le service d’Amazon Prime pour écouter de la musique, il vous est désormais possible, en quelques étapes, de lier Echo à un autre service de musique en streaming comme Spotify Premium. Cependant, Amazon Prime Music restera le service par défaut: vous ne pourrez avoir Spotify que si vous spécifiez «sur Spotify» dans votre commande vocale.

En revanche, Amazon est resté vague sur le choix des sites par défaut et partenaires, ainsi que sur les motivations de ces choix. En prévision du Super Bowl 2016, Amazon a annoncé qu’Echo allait désormais permettre de se commander une pizza. Mais cette pizza ne pourra, du moins pour l’instant, provenir que d’un seul fabricant: Domino’s Pizza. Si vous souhaitez une pizza d’une autre pizzeria, il vous faudra trouver utiliser un autre moyen.

À la décharge d’Amazon, la transparence est totale quant au choix de la pizzeria. Pour commander une pizza, il faut prononcer la commande spécifique «Alexa, ouvre Domino’s et passe ma commande Easy Order». C’est à dessein que cette commande est tarabiscotée. Ainsi, Amazon s’assure que vous ne commandez pas une pizza par accident et que vous savez d’où vient la pizza. Mais il est peu probable que Domino’s Pizza se soit ennuyé à établir un partenariat avec Amazon si l’entreprise n’avait pas pensé que cela allait générer au moins quelques ventes de plus que chez ses concurrents durant le Super Bowl.

Cela ne veut pas dire non plus qu’Amazon et Domino’s Pizza vont bientôt monopoliser le secteur de la pizza. Il existe bien entendu de nombreuses autres manières de commander une pizza que via Echo. Il en va de même pour les infos, les Rolling Stones, un livre ou un podcast. Mais que dire quand une seule marque de thermostats intelligents fonctionne avec Alexa? Si vous vous mettez à dépendre d’Alexa pour gérer votre agenda Google, que se passera-t-il si, un jour, Amazon et Google décident de ne plus travailler ensemble?

Lorsque vous dites «Bonjour» à Alexa, vous acceptez d’entrer dans son monde. En théorie, tout le monde est invité. Mais Amazon a les moyens de s’assurer que ses amis et ses associés seront les premiers que vous rencontrerez.

Extension naturelle

Bien qu’inquiétantes, ces évolutions peuvent sembler lointaines (après tout, nous ne parlons que de haut-parleurs de niche reliés à des thermostats de niche, non?). Mais les profonds changements à venir paraissent beaucoup plus proches lorsque l’on pense à toutes les autres sociétés concurrentes qui cherchent à faire des assistants numériques votre principal portail pour tout ce que vous faites sur votre ordinateur, dans votre voiture et sur votre téléphone. Des sociétés comme Google.

Lorsque vous dites «Bonjour» à Alexa, vous acceptez d’entrer dans son monde. En théorie, tout le monde est invité. Mais Amazon a les moyens de s’assurer que ses amis et ses associés seront les premiers que vous rencontrerez

Si Google est le mieux positionné pour capitaliser sur le développement des assistants personnels intelligents, c’est aussi la société qui a le plus à perdre. Dès le départ, Google s’est construit autour de son moteur de recherche pour devenir un portail d’informations et de services. Google Now (qui peut, par exemple, vérifier la circulation par anticipation pour vous prévenir de l’heure à laquelle vous devez partir pour attraper votre avion, même si vous ne l’avez pas demandé) est une extension naturelle de la stratégie de l’entreprise.

Dès 2009, Google a commencé à s’intéresser à la recherche vocale et à ce que l’entreprise a qualifié de «recherche conversationnelle», utilisant la reconnaissance vocale et la compréhension du langage naturel afin de répondre à des questions posées en termes simples. Plus récemment, Google a commencé à combiner ces fonctions à la «recherche contextuelle». Par exemple, comme Google l’a démontré lors de sa conférence des développeurs de 2015, si vous écoutez Skrillex sur votre téléphone Android, il vous suffit désormais de demander simplement «Quel est son vrai nom?» pour que Google devine que vous vous renseignez sur l’artiste et vous réponse «Sonny John Moore», sans même quitter l’application Spotify.

On ne s’étonnera donc pas des rumeurs disant que Google travaille actuellement sur deux nouveaux produits majeurs: une messagerie intelligente et un appareil domestique à commande vocale, respectivement très semblables à Facebook M et à l’Echo d’Amazon. Si un produit doit remplacer les services «sur écran» de Google, Google veut être celui qui le commercialisera.

Pour l’instant, Google semble avoir fait de véritables efforts pour gagner la course de l’assistant intelligent sans sacrifier les vertus (crédibilité, transparence et objectivité) qui ont fait de sa page de recherche la force dominante d’internet qu’elle est aujourd’hui. (Il est intéressant de rappeler ici que l’une des principales raisons qui ont permis à Google de vaincre AltaVista est qu’il n’a jamais faussé ses résultats de recherche dans son propre intérêt). La recherche vocale de Google cite généralement ses sources. Et Google reste principalement un portail vers d’autres sources d’information, plutôt qu’une plateforme qui tire ses renseignements d’autres sites. L’inconvénient de cette approche relativement ouverte est que lorsque vous dites «Hello» à la recherche vocale de Google, elle ne répond pas à votre salutation, mais vous donne un lien vers la chanson d’Adele «Hello». Et même dans ce cas, Google n’exclut pas l’utilisation de favoris comme sources d’information à présenter en premier: ce lien ne renvoie pas vers Spotify, Apple Music ou Amazon Prime Music, mais vers YouTube, qui est la propriété de Google. La société a dû répondre à des enquêtes antitrust prétendant que cela équivalait à un traitement de faveur. Pour sa défense, Google a affirmé proposer ses propres services et sources d’information en tête de liste parce que c’était ceux que les utilisateurs préféraient.

Petites tâches discrètes

La bonne nouvelle, pour les personnes inquiètes à l’idée que les assistants intelligents puissent prendre un jour le pouvoir, est qu’ils ne sont pas aussi intelligents qu’on le dit. Pas encore, du moins.

En 2013, le film Her, dans lequel un système d’exploitation mobile apprend à connaître son utilisateur si bien qu’ils commencent à entretenir une relation amoureuse, brosse un tableau haut en couleur de ce à quoi pourrait ressembler le monde si nous avions la technologie pour mener Siri, Alexa et consorts au bout de nos ambitions. Les experts que j’ai interrogés, qui mettent au point cette technologie aujourd’hui, ont presque tous cité Her comme point de référence, tout en soulignant que nous étions encore loin de ces résultats. 

Google a récemment fait renaître les espoirs (et les craintes) d’une super intelligence artificielle quand son logiciel AlphaGo a vaincu le champion du monde de Go lors d’un match historique. Aussi monumental fut cet exploit, concevoir un algorithme permettant de gagner un match du plus complexe jeu de plateau qui puisse exister est insignifiant comparé à la tâche qu’est la conception d’un algorithme permettant de comprendre tout ce qu’une personne dit et lui répondre avec pertinence. C’est pourquoi, même si une intelligence artificielle peut vous conseiller des chansons comme si elle était votre meilleure amie ou circuler dans les rues d’une ville plus sûrement qu’un conducteur humain, il lui faut toujours recourir à des ruses (comme faire semblant d’être un enfant de 13 ans montrant des difficultés à parler une langue étrangère) pour se faire passer pour un humain durant une longue conversation. Le monde est tout simplement trop vaste, le langage trop ambigu, le cerveau humain trop complexe pour qu’une machine puisse le reproduire, au moins dans un avenir proche.

Mais s’il est probable que nous ne verrons pas de véritable intelligence artificielle pleinement opérationnelle de notre vivant, nous pourrons peut-être devenir les témoins du développement d’un système s’approchant de certaines de ses capacités –un système qui ne serait pas constitué d’une seule Her humanoïde mais d’un million de petits robots menant à bien des petites tâches discrètes. En janvier, Casey Newton a écrit dans The Verge un article fascinant selon lequel notre avenir technologique serait rempli non de sites internet, d’applications ou même d’assistants, mais de bots de messagerie conversationnelle. Tout comme les assistants vocaux, ces bots reposent sur la compréhension du langage naturel pour entretenir des conversations avec nous. Mais, pour ce faire, ils utiliseront le medium qui domine les interactions interpersonnelles virtuelles, notamment chez les plus jeunes, qui sont les principaux utilisateurs des appareils mobiles: les textos. Newton se penche par exemple sur «Lunch Bot», un logiciel relativement simple qui faisait partie de Slack, plateforme de communication très utilisée dans les bureaux, et n’avait qu’une seule fonction extrêmement spécialisée: conseiller aux employés la meilleure adresse où commander son déjeuner le jour dit. Ce service s’est rapidement développé pour devenir une société baptisée Howdy.

J’ai moi-même un bot dans ma vie, qui joue également un rôle très spécialisé, mais néanmoins important. Alors que je faisais des recherches pour écrire cet article, je suis tombé sur une société dénommée X.ai, qui s’est donnée pour mission de construire l’assistant virtuel suprême pour la gestion d’agenda. Il s’appelle Amy Ingram et, s’il n’y avait ses initiales pour nous mettre sur la voie (A.I.=artificial intelligence), on pourrait interagir plusieurs fois avec lui avant de prendre conscience qu’il ne s’agit pas d’une vraie personne (contrairement à d’autres sociétés proposant des assistants intelligents, X.ai offre la possibilité de donner à son assistant un nom masculin: le mien s’appelle Andrew Ingram). Bien qu’il utilise une technologie de langage naturel impressionnante, le bot de X.ai ne tente pas d’avoir réponse à tout, ni de pouvoir tout faire; il ne raconte pas de blagues et ne donne pas envie de lui proposer un rendez-vous galant. Il ne demande à avoir accès qu’à une seule chose: votre agenda. Et il ne communique que par email. Mettez-le juste en copie de n’importe quelle conversation où il est question de prendre un rendez-vous, et il prendra automatiquement en charge toutes les étapes nécessaires pour fixer une date et un lieu. Une fois la date fixée avec la personne que vous devez rencontrer (ou peut-être avec son assistant, qu’il soit humain ou virtuel), il ajoutera tous les éléments pertinents sur votre agenda. Demandez à votre A.I. de mettre mon A.I en copie.

Pour ces bots, la clef du succès n’est pas de devenir intelligents au point de tout pouvoir faire. C’est de rester suffisamment spécialisés pour ne pas avoir à le devenir.

«Ce fantasme d’intelligence artificielle nous poursuit depuis près de soixante ans, explique Dennis Mortensen, fondateur et PDG de X.ai. À chaque tournant, nous avons cru que le seul résultat possible serait une sorte d’entité de niveau humain, avec laquelle nous pourrions discuter comme nous le faisons en ce moment même. Et ça restera de l’ordre du fantasme. Je n’imagine pas que ça puisse arriver de mon vivant, ni du vivant de mes enfants». Ce qui est possible, en revanche, d’après Mortensen, ce sont «des intelligences artificielles extrêmement spécialisées, verticalisées, qui ne comprennent peut-être qu’une tâche, mais qui l’effectuent parfaitement».

Pourtant, Mortensen pense que ces simples bots pourraient s’intégrer à quelque chose de plus grand. «Vous obtenez suffisamment de ces agents, et peut-être qu’un matin, en 2045, vous verrez qu’autour de vous, cette armada de petits agents, des dizaines de milliers, commenceront à communiquer entre eux, et ça ne sera pas si loin de ce fantasme d’intelligence artificielle que nous avions eu

Cela peut sembler un peu moins effrayant. Mais cela ne règle pas pour autant les problèmes de transparence, de vie privée, d’objectivité et de confiance –des questions qui n’ont rien de nouveau dans le monde de la technologie personnelle et d’internet, mais qui refont surface sous une forme nouvelle et qu’il est urgent de régler. Nous avons créé un monde de machines pouvant communiquer et nous traitons les logiciels comme des humains, en leur offrant un accès de plus en plus grand à nos vies et en leur confiant de plus en plus d’informations sur nous-mêmes. Dans ce monde, les grandes sociétés internationales connaissent plus de choses sur nous, ont plus d’influence sur nos choix et prennent plus de décisions à notre place que jamais auparavant. Et tout cela commence par un simple «Hello».

Will Oremus
Will Oremus (151 articles)
Journaliste
En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies pour réaliser des statistiques de visites, vous proposer des publicités adaptées à vos centres d’intérêt et nous suivre sur les réseaux sociaux. > Paramétrer > J'accepte