Monde

La reconnaissance vocale et l'épineux probème des accents

Les fabricants d'assistants vocaux ont encore d'importants progrès à faire. En tout cas, aux États-Unis.

Capture d'écran Youtube https://www.youtube.com/watch?v=zUlE5AP4Clg
Capture d'écran Youtube https://www.youtube.com/watch?v=zUlE5AP4Clg

Temps de lecture: 2 minutes - Repéré sur Backchannel

Il sera bientôt aussi naturel de parler à une machine à haute voix que de taper sur un clavier d’ordinateur. La reconnaissance vocale est effectivement en pleine expansion, et ce ne sont pas l’apparition d’instruments comme les assistants vocaux qui nous prouveront le contraire. Sauf que, si cette technologie risque bien d’envahir nos vies, elle ne reconnaît pas pour l'heure, la voix de tout le monde. Les parents d’une journaliste de Backchannel, par exemple, ont un accent trop prononcé pour donner des ordres à leur Amazon Echo. Ce qui n'est pas le cas de certains français, par exemple.

Des chercheurs estiment que d’ici 2020, la moitié de nos recherches se feront par la voix. Mais les fabricants d’assistants vocaux n’ont pas réellement pensé aux accents et aux différences qui existent entre les manières de parler, d’une région à l’autre du globe (et au sein d'un même pays). Une question se pose donc: comment les machines sont-elles entraînées à comprendre les êtres humains?

Collecte de voix

La réponse est assez simple. Les fabricants de ces intelligences artificielles leur passent des centaines, voire des milliers de samples, et les IA absorbent les données une à une; jusqu’à être capables de reconnaître la voix de chaque utilisateur. Le processus a débuté dès le début des années 1990 avec le projet Switchboard, lancé par Texas Instruments. Afin de collecter des données vocales, les chercheurs ont enregistré 2.400 appels –avec l’accord des participants, bien entendu– et les ont fait écouter à leurs intelligences artificielles. Switchboard est, depuis, devenu une référence en la matière.

Sauf que, bien entendu, tout le monde a une manière particulière de s’exprimer. Anne Wooton, la cofondatrice le plateforme de recherche audio Pop Up Archive, affirme à ce propos:

«Souvent, le système fait un meilleur travail avec des intonations indiennes plutôt qu’avec un profond accent du Sud. (…) Je pense que c’est un reflet de ce que les données d’entraînement contiennent ou non

Un défi à relever

Le souci résiderait finalement, d’après la journalise de Backchannel, dans le fait que les entreprises américaines n’ont pas mesuré la multiplicité d’accents. Et ce, contrairement à d’autres pays. Comme l’Inde, donc, mais aussi la Chine. Andrew Ng, directeur scientifique de Baidu, le site le plus visité de ce pays asiatique, affirmait ainsi récemment à The Atlantic:

«La Chine a une profonde connaissance de ce qui se passe dans le monde anglophone, mais l’opposé n’est pas vrai

Et les États-Unis sont ainsi en train de prendre du retard sur le sujet. Pourtant, si la collecte de données vocales est coûteuse, elle n’en demeurera pas moins essentielle d’ici quelques années. Et il suffit de jeter un œil aux pays francophones et à la diversité d’accents au sein de l’Hexagone pour se rendre compte du challenge que peuvent représenter les assistants vocaux.

cover
-
/
cover

Liste de lecture