Tech & internet / Sciences

Les voix de synthèse ne ressemblent toujours pas à celles des humains, mais est-ce un problème?

Les spécialistes du secteur font le point sur les dernières avancées techniques.

Extrait du film «Her», via Allociné.
Extrait du film «Her», via Allociné.

Temps de lecture: 2 minutes - Repéré sur The New York Times

Dans le film Steve Jobs, l’inventeur du Macintosh terrorise son équipe pour que l’ordinateur qu’il s’apprête à présenter à la presse et au monde en 1984 «parle» et qu’une voix artificielle prononce quelques mots à l’adresse du public. La prouesse technique ne masque pas le caractère profondément mécanique de cette voix robotisée. En dépit des progrès effectués depuis, la synthèse vocale ne s’est pas départie de son caractère discordant et même inquiétant, comme en témoigne un article du New York Times qui a interrogé des spécialistes du secteur sur l’état de l’art.

La meilleure technique consiste à enregistrer une voix humaine pendant des dizaines, voire des centaines d’heures, pour disposer des éléments dans lesquels le programme pourra ensuite piocher. Pour Watson, la célèbre intelligence artificielle d’IBM qui a participé au jeu télévisé «Jeopardy!» –et a surpassé les meilleurs candidats humains–, l’équipe d’IBM a passé plus d’un an à constituer la base de données des mots qu’utiliserait la machine, sans pour autant parvenir à rendre sa voix totalement «humaine».

L'angoisse de l'intimité

Car ce qui manque le plus aux machines, c’est une prosodie correcte, c’est à dire l’inflexion que nous donnons à la voix en fonction de nos émotions. Jusqu’à présent, le problème ne se posait pas, dans la mesure où les voix artificielles étaient plutôt utilisées pour assister le public ou le distraire, sans que l’identité de l’assistant vocal prête à confusion. Mais à mesure que l’intelligence artificielle est amenée à communiquer avec l’humain dans le travail, voire dans l’intimité comme dans le film Her où un homme tombe amoureux d'un programme muni d'une voix sensuelle, sa capacité à exprimer des émotions devient un enjeu.


Pour autant, veut-on vraiment que la synthèse vocale devienne trop convaincante et finisse par nous flouer sur son origine? À voir: une entreprise israélienne, Imperson, se spécialise dans les agents conversationnels et pourrait se lancer sur le marché des campagnes politiques. Un avatar du candidat en campagne pourrait par exemple «parler» aux électeurs avec un naturel confondant... Un scénario encore plus angoissant que celui de 2001, Odyssée de l'espace et de son ordinateur de bord, HAL 9000, capable de communiquer avec l'équipage grâce à sa voix –clairement– artificielle.

cover
-
/
cover

Liste de lecture