Ce qu’il y a de bien avec cette canicule, c’est qu’elle nous aura au moins appris l’humilité. Après quatre petits matins passés à saluer Simone Signoret dans la glace avant de vous rendre compte que ces yeux bouffis étaient les vôtres, vous vous êtes faite à l’idée que parfois, vous pouviez ne pas vraiment vous reconnaître. Mais cette dissonance cognitive peut aussi se produire avec la voix. Si vous avez écouté récemment votre message de boîte vocale ou un enregistrement quelconque de vous-même, vous avez sûrement dû vous demander à qui appartenait cette voix criarde de lycéenne de manga privée de dessert

–vu que vous êtes persuadée d’avoir celle de Monica Bellucci. C’est aussi ce qui est arrivé récemment au gendre et conseiller de Donald Trump, Jared Kushner, qui s’est exprimé publiquement pour la première fois le 19 juin devant des dirigeants de grandes entreprises techno. Ben c’était bien la peine d'attendre si longtemps puisque de cet homme d’affaires

au costume toujours impeccable est sorti un timbre de gamin.

Les internautes se sont déchaînés sur cette voix de «Michael Cera jeune», de «prépubère» et pas du tout de Dark Vador (manifestement, c’était le fantasme). Ne pas avoir la voix qui correspond à son usage, c’est aussi le problème des Gafam (Google, Apple, Facebook, Amazon, Microsoft), qui sont tous en quête de la fabrication miracle de la voix parfaite pour leurs assistants numériques. Un marché en pleine expansion qui devrait passer de 1,6 milliard de dollars en 2015 à près de 16 milliards d’ici 2021, selon Statista. Sans toutefois, pour le moment, être capable de reproduire la voix humaine. Pourquoi la course-poursuite de la voix parfaite est-elle devenue le Graal de l’époque? Stylist s’est mis à l’écoute.

Schizophrénie de la voix

«Ce qu’il faut bien comprendre, c’est que la voix est un instrument merveilleux. Seul l’homme peut parler!», nous explique Jean Abitbol, ORL, chirurgien de la voix et auteur de Le Pouvoir de la voix, (Allary Éditions, 2016).

«Mais la voix parfaite n’existe pas, simplement parce qu’elle est le reflet de la personnalité et que la personnalité parfaite n’existe pas.»

On serait bien tenté de finir ce papier sur cette conclusion mais continuons. Qu’est-ce qui peut faire que vous n’aimez pas votre voix? D’abord, le fait que vous ne l’entendiez jamais vraiment telle qu’elle est (d’où le malaise quand vous en écoutez un enregistrement). Alors que vous entendez celles des autres uniquement par l’extérieur, vous percevez la vôtre à la fois par l’extérieur et par l’intérieur: la contraction des muscles du larynx crée une vibration qui est transmise du cou au crâne et vous entendez donc aussi la propagation du son dans les os. Or ces os propagent plus facilement les basses fréquences, ce qui explique que vous entendez toujours votre voix plus grave qu’elle ne l’est. Mais le sentiment de disharmonie peut parfois être beaucoup plus prononcé, comme l’explique Jean Abitbol: «L’une des raisons principales pour laquelle mes patients viennent me voir, c’est quand ils ont l’impression que leur voix ne colle pas à leur personnalité.»

Il cite volontiers le cas de cette patiente, avocate à la criminelle. Elle fume deux paquets de cigarettes par jour, ne crache pas sur le petit whisky du soir et gagne régulièrement ses plaidoiries. Sa voix ne l’a jamais dérangée mais cela gêne son petit ami qui lui reproche son timbre de mec (passons sur le sexisme aberrant de cette remarque). À l’examen, il y a bien un œdème sur l’une des cordes vocales mais qui ne présente pas de danger médical. Abitbol ne veut pas l'opérer. L'un de ses confrères accepte. Un an plus tard, elle a une voix plus aiguë mais elle perd ses procès, s'est fait larguer par son petit ami (un garçon qu’on a décidément envie de connaître) et se plaint d’une forme de schizophrénie depuis qu’elle rêve avec sa voix d’avant tout en parlant avec sa nouvelle.

«La chirurgie de la voix est une chirurgie émotionnelle, rappelle Jean Abitbol. Quand on opère une corde vocale, on touche à la personnalité de la personne et il peut en résulter une blessure très profonde.»

Un lien qui a aussi été exploré l’an dernier dans le film d’animation Anomalisa où l’on entend seulement trois voix: celle de Michael, père et mari dépressif, celle, toujours la même, du reste du monde, et celle de Lisa, petite voix optimiste qui tranche avec l’atonie ambiante. Mais qui pour plaire à Michael va modifier sa personnalité jusqu’à parler comme tout le monde (ce Michael est sûrement un ami de l’ex de l’avocate).

This is the voice

Vous n’êtes toujours pas rassuré(e) de savoir que c’est votre voix unique qui fait votre personnalité? D’un, vous n’avez pas assez lu les citations positives des sachets de Yogi Tea, deux, cette voix unique, c’est ce que cherchent désespérément les géants du Web. Dans un monde qui aurait de la gueule, c’est-à-dire dans le vaisseau d’Alien, un assistant numérique aurait la voix chaude et rassurante de Mother, l’intelligence artificielle du vaisseau (et jouée par une actrice bien humaine, Lorelei King). Dans la vraie vie, vous avez Siri, dont la voix métallique à la scansion étrange a surtout servi l’an dernier à des concours de beatboxing sur YouTube (Ça vous botte? Il suffit de demander, en anglais, à Siri de calculer «un trillion puissance 10» pour avoir le beat parfait –un enchaînement ininterrompu de «zéro, zéro, zéro…».).

Depuis le lancement de Siri en 2011 par Apple, se sont lancés Alexa (Amazon) en 2014, Home (Google) en 2015, Cortana (Microsoft) en 2016 et Bixby (Samsung) en 2017. Et aucun d’eux n’a la voix de Fanny Ardant. Si les imperfections vocales n’empêchent pas le nombre d’utilisateurs des assistants vocaux d’augmenter –selon le cabinet d’analyse Tractica, spécialisé dans les interactions entre les humains et la technologie, il a passé la barre du demi-milliard l’an dernier et devrait doubler dès 2018–, il reste encore du chemin à parcourir pour entendre une voix synthétique proche de celle des humains. Or, c’est justement ce qui fait fantasmer les utilisateurs. Il y a ceux qui sont déjà plus ou moins convaincus: selon une étude faite en 2015 par Mindshare, parmi ceux qui utilisent ce genre de service, 37 % les aiment au point de souhaiter qu’ils existent pour de vrai et 26 % ont déjà développé des fantasmes sexuels pour eux (et vous qui pensiez que vous aviez une vie triste…). Mais chez ceux qui ne sont pas encore conquis et qui possèdent un smartphone, ce qui ferait la différence c’est «si les assistants vocaux pouvaient [les] comprendre correctement et [leur] répondre aussi bien qu’un humain». Et là, peu importe la tessiture ou l’empreinte vocale chères à Florent Pagny pendant ses débriefs «The Voice».

«Le plus grand problème aujourd’hui avec les assistants vocaux, c’est que cela coûte très cher de manipuler l'état expressif de leur voix et que les systèmes existants ne savent pas répondre de façon adéquate à une situation», explique Axel Roebel, chercheur et développeur à l’Ircam.

«On ne sait pas encore modéliser la surprise, la colère, l’indignation. Or un système qui prendrait en compte votre état émotionnel serait beaucoup plus efficace. Prenons le GPS: il va répéter les informations de la même façon que vous ne disiez rien, que vous soyez calme ou énervé. Cela n’existe pas dans un dialogue réel. Alors que s’il pouvait s’arrêter ou changer de ton quand vous êtes en colère, on commencerait à avoir un vrai dialogue.»

Ce qui fait qu’on module naturellement notre voix, «c’est le reflet du regard de l’autre», confirme Jean Abitbol. Et cela vaut aussi si la personne n’est pas vraiment en face. Si vous faites partie des 880.000 utilisateurs de l’appli de méditation Petit Bambou, vous avez sûrement remarqué la voix de Mathilde, star du service, capable de vous faire respirer après une semaine en apnée ou de vous convaincre que vous pouvez lâcher prise alors que vous préféreriez vous tenir fermement aux accoudoirs de la vie. Pour rendre sa voix efficace, cette conseillère en stratégie marketing et pratiques commerciales a toujours «une idée de ce que la personne en face a envie d’entendre. Pour Petit Bambou, je me mets dans un état proche de celui de la méditation, j’écoute moi aussi ce que je suis en train de dire. D’ailleurs, les voix criardes, mal placées, sont souvent dues au fait que la personne n’est pas à l’écoute de l’autre».

Qui est à l'appareil?

Cette importance du destinataire pour rendre une voix naturelle, c’est cela aussi qui devrait rassurer, pour un temps, les traumatisés de la post-vérité. En avril 2017, comme s’ils avaient besoin de ça avec l’année qu’ils venaient de se taper, ils ont eu une autre occasion

de se faire peur avec l’invention de Lyrebird, une start-up d’intelligence artificielle basée à Montréal: un algorithme capable d’imiter n’importe quelle voix à partir d’un enregistrement d’une minute. L’an dernier, Adobe avait déjà présenté son projet Vo-co, annoncé comme un «photoshop de la voix», capable de remplacer des mots ou des phrases entières dans un discours de voix modélisé mais qui nécessitait vingt minutes d’enregistrement. Faut-il s’attendre à devoir vérifier qu’un enregistrement audio

n’est pas une fake news après s’être habitué à être vigilant avec les photos? Oui mais pas

tout de suite, selon Axel Roebel:

«Pour le moment, on est encore assez loin de pouvoir faire dire n’importe quoi à une voix en étant convaincant. Dans les tests de perception, les individus font encore la différence entre une voix naturelle et une voix recréée. Et si, par exemple, je vous enregistrais lors de cette conversation pour vous faire dire n’importe quoi, vous parleriez quand même avec une voix de téléphone. Ce n’est pas encore le moment d’avoir peur mais cela va venir.»

Vous avez peur quand même? Vous êtes déjà en train de vous projeter dans un Making a murderer 7, dans lequel Lyrebird a refabriqué votre voix pour vous faire avouer un viol incestueux pédophile? Respirez, d’ici-là, la chirurgie plastique de la voix aura sûrement fait de grands pas.