Tech & internet / Sciences

Votre voix peut désormais être clonée en un temps record

À partir d'un échantillon de voix très court, un algorithme développé par Baidu est capable de produire de nouveaux énoncés qui reprennent toutes les caractéristiques d'une voix donnée.

<a href="http://www.allocine.fr/film/fichefilm-175305/photos/detail/?cmediafile=19634452">Le discours d'un roi, Tom Hooper, 2011</a> | Allociné<a href="http://www.allocine.fr/film/fichefilm-175305/photos/detail/?cmediafile=19634452"> License by</a>
Le discours d'un roi, Tom Hooper, 2011 | Allociné License by

Temps de lecture: 2 minutes - Repéré sur Motherboard

Il suffit d'enregistrer 3,7 secondes de temps de parole et vous pourrez reproduire (ou déformer) tous les discours du monde: c'est la promesse assez inquiétante qu'est en train de réaliser Baidu, le numéro un​ chinois de l'internet, grâce à un nouvel algorithme d'intelligence artificielle.

Ce dernier est capable de cloner une voix, avec ses intonations, ses accents, ses particularités, et de produire à partir de là de nouvelles paroles, comme si elles étaient prononcées par la personne enregistrée à l'origine.

Des clones confondants

Cela s'appelle Deep Voice, et​ ne fait que trop penser aux «deep fakes», ces vidéos pornographiques truquées elles aussi à l'aide d'un algorithme d'intelligence artificielle, permettant d'incruster de façon réaliste le visage d'une personne –si possible célèbre– sur un corps étranger.

Il y a un an de cela, le système de «texte à parole» de Deep Voice avait encore besoin de 30 minutes de bande-son préalable avant de pouvoir obtenir un résultat satisfaisant.

Il est désormais possible d'obtenir un clone crédible en un temps record, bien que de plus larges échantillons permettent de créer des faux de meilleure qualité.

Avec seulement quelques secondes, l'enregistrement produit est reconnaissable (c'est-à-dire suffisamment trompeur pour être crédible)​, mais sonne comme une captation d'assez mauvaise qualité, un peu hachée ou grésillante. Entraîné sur cent échantillons, l'algorithme peut en revanche produire des discours confondants. Il est possible pour le système de transformer une voix de femme en voix d'homme, ou un accent britannique en accent américain (divers échantillons sont disponibles ici).

À LIRE AUSSI Comment la DGSE recrute

Dans un communiqué, Baidu écrivait espérer que le clonage de voix ​puisse «avoir des applications significatives dans la personnalisation d'interfaces humain-machine».

​Un autre type «d'applications significatives» permis par ce type d'avancée technologique pourrait également​ concerner la falsification de documents audio ou la création de toute pièce de fausses déclarations. Dans un contexte de prolifération de fake news, des clones vocaux pourront s'ajouter à cœur joie à la cacophonie ambiante: une nouvelle mine d'or pour les faussaires.

cover
-
/
cover

Liste de lecture