Life

Pourquoi les voix synthétiques n'ont rien d'humain

Farhad Manjoo, mis à jour le 12.03.2009 à 12 h 32

C3PO et R2D2. DR

C3PO et R2D2. DR

Lors de la présentation du nouveau Kindle, Jeff Bezos, le PDG d'Amazon, s'est enthousiasmé pour une fonction inédite : une voix synthétique peut lire n'importe quel passage des textes stockés dans la machine. Pour Amazon, l'argument marketing est évident : le Kindle permet aux utilisateurs d'avancer dans leur livre en conduisant ou en faisant la cuisine. Mais pour les éditeurs, le Kindle représente une perte de revenus. Selon la Authors Guil (Association des auteurs), si un livre électronique peut être transformé en audio-livre, son auteur doit percevoir un pourcentage supplémentaire sur chaque vente. Fin février, Amazon a battu en retraite et s'est engagé à permettre aux éditeurs de désactiver cette fonction sur tout document électronique publié sur le Kindle.

Si le débat juridique autour de cette question promet d'être passionnant, il suffit d'écouter parler le Kindle pour se rendre compte que la controverse est peut-être un peu prématurée. La voix de la machine est spécialement insupportable. Imaginez Gérard Depardieu avec une angine de poitrine en train de vous faire la lecture. En fait, non. Même ça, ce serait moins pénible que le Kindle, dont la performance se rapproche de celle d'un robot dyslexique qui aurait appris l'anglais en Europe de l'Est.

Et cela n'a rien de surprenant. Les systèmes de lecture automatisée sont de plus en plus sophistiqués et la qualité des rendus s'améliore. Mais à l'heure actuelle, conférer ne serait-ce qu'un semblant d'expressivité à une voix synthétique relève plus de la quête du Graal que de l'objectif réaliste. C'est pourquoi ces applications sont cantonnées aux utilisations les plus simples, comme les navigateurs GPS ou les standards téléphoniques, quand l'utilisateur n'entend que de courtes phrases, ce qui rend supportable l'absence d'intonation et la diction bizarre de la machine. Au-delà de deux ou trois lignes lues par une machine, on ne peut s'empêcher de comparer la voix électronique avec celle d'un être humain, comparaison invariablement fatale à l'ordinateur.

Pendant une semaine, j'ai testé la fonction lecture du Kindle sur des livres, des journaux et des magazines. Je n'ai pas réussi une seule fois à l'écouter plus d'une minute. La machine fait des pauses aux mauvais endroits, elle insiste sur la mauvaise partie de la phrase, ne change pas de ton lorsqu'elle lit une citation, et n'arrive pas à prononcer la plupart des noms propres. Un exemple ? Ecoutez le Kindle lire un passage d'un livre pas franchement difficile, Da Vinci Code.



Voici le texte, vous en aurez sûrement besoin pour suivre :

Only 15 feet away, outside the sealed gate, the mountainous silhouette of his attacker stared through the iron bars. He was broad and tall, with ghost-pale skin and thinning white hair. His irises were pink with dark red pupils. The albino drew a pistol from his coat and aimed the barrel through the bars, directly at the curator. "You should not have run." His accent was not easy to place. "Now tell me where it is."

"I told you already," the curator stammered, kneeling defenseless on the floor of the gallery. "I have no idea what you are talking about!"

"You are lying." The man stared at him, perfectly immobile except for the glint in his ghostly eyes. "You and your brethren possess something that is not yours."

Vous avez remarqué comment le Kindle prononce « mountainous silhouette » ? En écrasant les mots : mountnousilwet. Iron devient I-ron, curator devient guraytor et idea, i-dee-ay. Et lorsque le « guraytor » dit à l'albinos qu'il n'a aucune « i-dee-ay » de ce qu'il veut, il est censé crier, ou du moins protester, puisqu'on le menace avec une arme. Mais lu par le Kindle, l'échange se rapproche plus d'une discussion polie avec votre boulanger à propos d'une erreur de monnaie.

Pourquoi la machine d'Amazon lit-elle si mal ? Parce que l'élocution humaine est extrêmement variée et bien trop complexe et subtile pour être comprise et reproduite par un ordinateur. La machine parvient à peu près à lire les mots qui figurent sur une page, mais puisqu'elle ne comprend pas ce qu'elle lit, il lui est impossible d'y mettre de l'émotion, ou même du sens.

Voici un dialogue très simple :

- Je vais réussir cet examen
- C'est ça.

Une personne comprendrait sans difficulté que la réponse est sarcastique. Un ordinateur doté d'intelligence artificielle, comme le HAL 9000 de 2001, l'Odyssée de l'espace, percevrait également la subtilité. Mais une machine fabriquée aujourd'hui ne saisira pas l'ironie et en conclura que le second énonciateur est de l'avis du premier. Andy Aaron, chercheur en synthèse vocale au Watson Research Center d'IBM à New York, m'a proposé un autre exemple. Vous arrivez à la fin d'un livre et il s'avère qu'une phrase apparemment sans importance, prononcée au début de l'histoire par un personnage secondaire, contient la clef de l'énigme. «Comment un ordinateur peut-il comprendre cela? Et donc comment peut-il savoir qu'il devrait effectuer une pause avant cette phrase pour en renforcer l'impact et créer un effet dramatique? » s'interroge Aaron. «Je ne dis pas que c'est impossible, mais pour l'instant, nous sommes encore très loin de pouvoir concevoir un système de lecture aussi bon qu'un acteur professionnel. A vrai dire, ce n'est pas même envisageable en l'état actuel des connaissances, il y a encore bien trop d'obstacles. »

Bien sûr, les systèmes de lecture ont fait des progrès impressionnants depuis leur invention dans les années 1970. Ces premiers systèmes, appelés « synthétiseurs formant », parlaient en reproduisant les fréquences sonores de la voix humaine (un processus similaire à celui utilisé par les synthétiseurs pour imiter des instruments de musique). En 1978, Texas Instruments produit la première machine destinée au grand public, un jouet éducatif baptisé Speak & Spell (en français, La Dictée magique). La voix synthétique était dissonante et mécanique, mais les mots étaient suffisamment compréhensibles pour être reconnus et épelés par des enfants.



En 1982, deux informaticiens, Mark Barton et Joseph Katz, mettent au point le premier logiciel capable de faire parler un ordinateur, Software Automatic Mouth, qui tourne sur Apple, Atari et Commodore. Conquise, la firme à la pomme demande à Barton et Katz de porter l'application sur le tout nouveau Macintosh. Et en 1984, Steve Jobs peut terminer sa plus célèbre présentation, celle du premier Mac, en déclarant : « Et maintenant, pour la première fois, je laisse la parole au Macintosh. » Devant un public estomaqué, l'ordinateur se mettait à parler.
L'augmentation de la puissance des ordinateurs va rendre possible l'utilisation d'une méthode plus performante. Au lieu de programmer la machine pour qu'elle synthétise la voix humaine, on peut désormais enregistrer de longues listes de mots prononcés par des acteurs et apprendre à l'ordinateur à piocher dans cette réserve de sons afin de reconstituer n'importe quelle phrase. Cette méthode, qui s'est rapidement imposée, s'appelle la synthèse vocale phonétique. Bien implémentée et utilisée, elle peut produire une voix étrangement naturelle. Ecoutez cet extrait de la Déclaration d'indépendance, lu par Naxpress, le logiciel de synthèse vocale développé par IBM.



En écoutant attentivement, on peut déceler quelques petits problèmes de prononciation et un rythme parfois peu naturel. On a par exemple l'impression que les deux syllabes du mot « equal » ne sont pas prononcées par la même personne, et le passage « that among these are life... » paraît presque chanté. Mais une personne ne s'attendant pas à entendre un ordinateur pourrait presque croire qu'elle écoute un être humain.

Pour en arriver là, Aaron et ses collaborateurs enregistrent des acteurs professionnels afin de constituer une gigantesque base de données de sons. Cette première étape est déjà complexe. Chaque acteur doit lire environ 100.000 lignes, ce qui prend deux semaines. Pour que les mots qu'il a prononcés puissent être découpés et ré-assemblés par le programme, il faut qu'il parle d'une voix très constante, mais naturelle. De plus, la plupart des phrases qu'il doit lire n'ont aucun sens. Elles ont été écrites pour amener chaque acteur à prononcer le maximum de phonèmes, les unités sonores de base qui constituent toutes les langues. (L'anglais utilise une quarantaine de phonèmes. Le mot « dollar » en contient quatre : D, AA, L et ER). Voici quelques exemples de ces phrases.

Says the cheeky thug. (Dit le voyou insolent.)
There's a wood-burning stove. (Voici un poêle à bois.)
Few love working at KGO now. (Peu de gens aiment travailler chez KGO)
Did Michelangelo zap you? (Michel-Ange t'a zappé ?)

Quand les acteurs ont terminé, le programme analyse les enregistrements et découpe les mots en phonèmes. Le système est prêt. Lorsqu'il doit lire une phrase, l'ordinateur commence par déterminer de quels phonèmes est constituée la phrase, puis il cherche dans la base de données la version la plus appropriée de chacun de ces sons. Lorsqu'il les a tous sélectionnés, il les assemble pour former une phrase.

Le principal inconvénient de la synthèse phonétique est qu'elle exige d'énormes capacités de stockage pour la base de phonèmes. Cela n'est pas très gênant pour un système d'assistance technique automatisé, qui peut fonctionner à partir de gros serveurs. Mais les appareils mobiles ont des mémoires de taille bien plus réduite. De ce fait, ils ne fonctionnent qu'avec une base de phonèmes appauvrie, où chaque son existe dans peu de versions, ce qui nuit à la qualité et au naturel du rendu. Voilà pourquoi le Kindle ou votre GPS n'arrivent pas à la cheville du système d'IBM.

Aaron estime que le prochain champ qui devra être exploré par la recherche en synthèse vocale est celui de l'émotion. IBM a fait des progrès embryonnaires dans ce domaine. Aaron a demandé aux acteurs de lire les mêmes phrases avec des intonations différentes : joyeuse, abattue, en insistant sur un passage, et en utilisant un ton interrogatif. Cela permet au système d'introduire une petite dose d'expressivité dans son élocution. Pour indiquer à l'ordinateur qu'il doit s'exprimer, par exemple, avec une pointe de joie dans la voie (« Bonne nouvelle : je vous ai trouvé une place dans ce vol »), il suffit de marquer la phrase avec la balise <bonnenouvelle> et le système saura qu'il doit utiliser des phonèmes joyeux.

Pour un exemple concret, écoutez Naxpress prononcer la phrase « These cookies are delicious » avec une voix neutre :



Et voici la version plus enjouée :



Pour les programmateurs, le plus difficile est de savoir quand il faut indiquer au système d'utiliser un ton particulier. En effet, puisqu'il ne comprend pas ce qu'il lit, l'ordinateur est bien incapable de décider par lui-même quelle émotion il doit faire passer en lisant une phrase donnée. Voilà pourquoi le Kindle lit si mal. Un jour, sa voix ressemblera peut-être à celle d'un être humain. Mais il se passera beaucoup de temps avant qu'un ordinateur ne comprenne l'évidence : lorsqu'un albinos vous met un revolver sous le nez, vous êtes censé protester.

Farhad Manjoo

Traduit par Sylvestre MeIninger

Image de une: C3PO et R2D2. DR

Farhad Manjoo
Farhad Manjoo (191 articles)
En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies pour réaliser des statistiques de visites, vous proposer des publicités adaptées à vos centres d’intérêt et nous suivre sur les réseaux sociaux. > Paramétrer > J'accepte