Tech & internet / Sciences

Votre voix peut désormais être clonée en un temps record

Temps de lecture : 2 min

À partir d'un échantillon de voix très court, un algorithme développé par Baidu est capable de produire de nouveaux énoncés qui reprennent toutes les caractéristiques d'une voix donnée.

Le discours d'un roi, Tom Hooper, 2011 | Allociné License by

Il suffit d'enregistrer 3,7 secondes de temps de parole et vous pourrez reproduire (ou déformer) tous les discours du monde: c'est la promesse assez inquiétante qu'est en train de réaliser Baidu, le numéro un​ chinois de l'internet, grâce à un nouvel algorithme d'intelligence artificielle.

Ce dernier est capable de cloner une voix, avec ses intonations, ses accents, ses particularités, et de produire à partir de là de nouvelles paroles, comme si elles étaient prononcées par la personne enregistrée à l'origine.

Des clones confondants

Cela s'appelle Deep Voice, et​ ne fait que trop penser aux «deep fakes», ces vidéos pornographiques truquées elles aussi à l'aide d'un algorithme d'intelligence artificielle, permettant d'incruster de façon réaliste le visage d'une personne –si possible célèbre– sur un corps étranger.

Il y a un an de cela, le système de «texte à parole» de Deep Voice avait encore besoin de 30 minutes de bande-son préalable avant de pouvoir obtenir un résultat satisfaisant.

Il est désormais possible d'obtenir un clone crédible en un temps record, bien que de plus larges échantillons permettent de créer des faux de meilleure qualité.

Avec seulement quelques secondes, l'enregistrement produit est reconnaissable (c'est-à-dire suffisamment trompeur pour être crédible)​, mais sonne comme une captation d'assez mauvaise qualité, un peu hachée ou grésillante. Entraîné sur cent échantillons, l'algorithme peut en revanche produire des discours confondants. Il est possible pour le système de transformer une voix de femme en voix d'homme, ou un accent britannique en accent américain (divers échantillons sont disponibles ici).

À LIRE AUSSI Comment la DGSE recrute

Dans un communiqué, Baidu écrivait espérer que le clonage de voix ​puisse «avoir des applications significatives dans la personnalisation d'interfaces humain-machine».

​Un autre type «d'applications significatives» permis par ce type d'avancée technologique pourrait également​ concerner la falsification de documents audio ou la création de toute pièce de fausses déclarations. Dans un contexte de prolifération de fake news, des clones vocaux pourront s'ajouter à cœur joie à la cacophonie ambiante: une nouvelle mine d'or pour les faussaires.

Newsletters

Netflix plante le dernier clou dans le cercueil du cinéma

Netflix plante le dernier clou dans le cercueil du cinéma

[TRIBUNE] Que deviendra ce qu'on appelle les «films» dans un environnement où ils sont avant tout conçus pour les plateformes?

Si la NBA a réussi à percer en France, c'est grâce aux réseaux sociaux

Si la NBA a réussi à percer en France, c'est grâce aux réseaux sociaux

Ce 24 janvier, un match officiel de la NBA se joue pour la première fois sur le sol français. Les efforts des fans, qui ont su faire vivre leur passion sur internet, sont enfin récompensés.

La Chine offre 72.000 dollars aux pêcheurs qui attrapent des drones sous-marins espions

La Chine offre 72.000 dollars aux pêcheurs qui attrapent des drones sous-marins espions

Sept appareils de ce type ont été pêchés dans des filets chinois en 2019.

Newsletters