Finie la saisie de texte?

La technologie de reconnaissance vocale développée par Google, ça marche!

Giant Google Android statue with puppy and cupcake, ToastyKen via Flickr, CC-Licence-by

- Giant Google Android statue with puppy and cupcake, ToastyKen via Flickr, CC-Licence-by -

Si vous possédez un téléphone Android (commercialisé par Google), faites ceci: sur l’écran d’accueil, appuyez sur l’icône du micro, puis dites: «Combien y a-t-il d’angströms dans un mile?» Parlez normalement, sans ralentir votre débit ni articuler exagérément «angström». Si votre connexion Internet est bonne et rapide, en moins d’une seconde, votre téléphone devrait être capable de comprendre la question et afficher la réponse: 1.609.344 × 1013.

Et ça marche pour toutes sortes de questions. Demandez: «Combien font 10 fois 10 divisés par 5 milliards»: votre téléphone fait le calcul. Dites: «Itinéraire pour aller au McDonalds» ou lisez une adresse —même approximative, du genre «33e et 6e, New York»— votre Android affichera un plan vous indiquant comment y aller.

Ça marche aussi dans d’autres langues que l’anglais: d’une part, l’appli de traduction d’Android (également disponible pour l’iPhone) convertit l’anglais en français oral (entre autres langues); d’autre part, le téléphone est doté d’un «mode conversation» qui permet, par exemple, à un touriste anglophone se trouvant face à un serveur en France de faire traduire en anglais ce que lui dit en français son interlocuteur. Cerise sur le gâteau, Android vous permet aussi de dicter vos e-mails et vos textos.

Les limites de la reconnaissance vocale repoussées

Ceux parmi vous qui ont déjà essayé des logiciels de reconnaissance vocale sont peut-être sceptiques quant aux capacités d’Android. Car auparavant, il fallait parler de façon quasi-artificielle, et les erreurs étaient si fréquentes qu’il était souvent plus facile de se résigner à taper son texte. Aujourd’hui, les systèmes de reconnaissance vocale les plus performants —par exemple, le logiciel créé par Dragon—, n’ont plus besoin que vous parliez bizarrement. Cependant, ils ont tendance à être lents et à énormément solliciter le processeur de votre ordinateur pour décoder ce que vous racontez.

Le système de Google, en revanche, décharge son traitement sur le cloud. Tout ce que vous dites à votre téléphone Android est retransmis aux centres de données de Google, où des serveurs ultra-puissants appliquent des modèles statistiques pour comprendre vos propos. Ce processus est rapide, peut être déclenché de n’importe où et est incroyablement efficace. Vous pouvez parler normalement (pour ponctuer votre e-mail, vous devez quand même dire «virgule» ou «point»), aussi longtemps que vous le souhaitez et employer les plus longs: aucun problème. Vous pouvez même avoir un accent régional.

Comment se fait-il que la fonction de reconnaissance vocale d’Android fonctionne si bien? C’est la magie des données! La reconnaissance vocale fait partie d’une série de programmes d’intelligence artificielle de Google (les autres étant des outils de traduction et de recherche d’images) extrêmement performants. Ces systèmes sont capables d’analyser des mines d’informations. S’agissant du système de reconnaissance vocale, les données consistent en une multitude d’enregistrements de voix.

S’il vous est arrivé d’utiliser la fonction de reconnaissance vocale d’Android, le service de transcription de messages vocaux en e-mails de Google, Goog411 (un service d’informations qui n’existe plus) ou un autre service vocal de Google, il y a de fortes chances pour que la société dispose de votre voix quelque part sur ses serveurs. Et c’est uniquement parce que Google a conservé votre voix (et des millions d’autres) que son système est capable de reconnaître la mienne.

Des milliards de données vocales enregistrées et analysées

L’enregistrement de votre voix est stocké de façon anonyme, sauf si vous avez activé la fonction de reconnaissance vocale personnalisée d’Android. En d’autres termes, Google ne peut pas associer votre voix à votre nom. Néanmoins, quand on constitue une immense base de données composée de phrases prononcées par des millions de gens, les questions liées à la confidentialité sont fascinantes.

Mais si on fait provisoirement abstraction des problèmes de confidentialité, il est indéniable que la reconnaissance vocale est l’un des divers outils informatiques qui ont pu naître uniquement grâce à la capacité inédite à stocker et analyser des tonnes d’informations. D’une certaine manière, le futur des logiciels –et, par conséquent, celui du secteur informatique– est tributaire de ces bases de données. Si le film Le Lauréat sortait aujourd’hui, le conseil que donnerait M. McGuire à Benjamin Braddock pour réussir serait le suivant: «Rien qu’un mot: données».

La reconnaissance vocale et ses acteurs ont évolué

L’histoire de la création des machines capables de décrypter le discours aide à comprendre pourquoi les enregistrements de bribes de paroles, phrases, mots, syllabes, etc. sont nécessaires à la reconnaissance vocale.

Fin 2010, j’ai rencontré Mike Cohen, directeur du système de reconnaissance vocale de Google, lors d’une conférence sans intérêt qui s’est tenue au siège de Google (Mountain View, Californie). Mike Cohen est l’un des grands experts de la reconnaissance vocale dans le monde. Il a plusieurs dizaines d’années d’expérience et a suivi l’évolution d’une discipline dans laquelle, au départ, des linguistes s’intéressaient à l’informatique et où, à l’heure actuelle, ce sont les ingénieurs informatiques qui s’intéressent aux langues.

«Dans les années70, il y avait deux camps qui se parlaient à peine», raconte Mike Cohen. Les linguistes étaient plus ou moins persuadés que les différents sons du langage pourraient être analysés et transformés en un ensemble de règles informatiques. Il suffisait, selon eux, d’écouter suffisamment de «discours», puis de répertorier minutieusement la fréquence des sons entendus. Une fois les différents sons analysés et stockés dans une bibliothèque de référence, un ordinateur serait capable de le reconnaître un son donné simplement en le recherchant.

De prime abord, pourquoi pas? Mais les informaticiens ont vite été confrontés à un problème de taille: l’écart entre l’homme et la machine serait énorme. L’analyse informatique allait porter la reconnaissance vocale bien plus loin que ce dont est capable l’homme. Concrètement, si on enregistre suffisamment d’échantillons audio dans un ordinateur puissant, il finira par être capable d’identifier toutes sortes de nuances qui dépasseraient totalement les linguistes. Pour reprendre la formule de Frederick Jelinek, chercheur informatique et l’un des pionniers en matière de reconnaissance vocale: «A chaque fois que je vire un linguiste, l’outil de reconnaissance vocale gagne en performances».

Il y a a, a et a

Au fil des années, explique Mike Cohen, les deux camps se sont rapprochés. Les systèmes de reconnaissance vocale actuels reposent sur les connaissances poussées des linguistes et des informaticiens. Mais ces derniers sont toujours face à un problème fondamental: les sons du langage humain sont trop nombreux pour qu’on puisse les décrire sous forme de règles linguistiques explicites.

Le directeur du système vocal de Google donne un exemple. La plupart des gens diront qu’en anglais, le a dans les mots map, tap, et cat, est prononcé de façon identique. En réalité, il y a des nuances très subtiles. Pour prononcer le son M dans map, la lèvre supérieure vient rejoindre la lèvre inférieure, ce qui forme un long tube fermé dans votre canal vocal. Le son a qui suit en est modifié: dans ce cas, votre larynx vient d’émettre le son à basse fréquence M dans les 10 à 30 premières millisecondes de l’articulation du a de map; il y a ici de nombreuses vibrations à basse fréquence qu’on ne retrouve pas en début de prononciation du mot tap.

Je vous laisse imaginer le nombre incalculable de nuances qui existent pour tous les mots et combinaisons de mots dans toutes les langues de ce monde. «On ne peut absolument pas [décrire les sons] en définissant des règles explicites», réaffirme Mike Cohen. Le seul moyen d’identifier toutes ces différences, c’est l’analyse de données à grande échelle: en faisant analyser une myriade d’exemples de discours par de nombreux ordinateurs.

La recherche Google sert la reconnaissance vocale

Mais où se procurer toutes ces paroles? «L’un des gros obstacles à la reconnaissance vocale, c’était les données», explique Mike Cohen. Durant de nombreuses années, les chercheurs savaient, sur le principe, comment bâtir des systèmes de reconnaissance vocale. Cependant, ils ne savaient pas comment obtenir suffisamment de conversations ou de puissance informatique pour le faire. Puis, Google est né. Et il s’est trouvé que l’infrastructure dont a eu besoin Google pour mettre au point un extraordinaire moteur de recherche (des centres de données titanesques prévus pour stocker et analyser les sites web, ainsi qu’une série de processus internes spécialement conçus pour gérer d’immenses quantités d’informations) allaient permettre de résoudre les problèmes que posaient la reconnaissance vocale ou d’autres programmes d’intelligence artificielle.

La recherche et la parole ont beaucoup de caractéristiques communes. Pour déchiffrer ce que vous dites, le système de reconnaissance vocale de Google ne se contente pas de faire des recherches sur les voix enregistrées. Il parcourt aussi une kyrielle d’autres données, y compris des milliards de recherches effectuées par des internautes dont il se sert pour prédire les mots que vous prononcez. Si vous dites Paris, on pourrait comprendre «pas ri» (du verbe rire à la forme négative), mais Google sait que vous parlez sans doute de la capitale française, parce que la seconde option fait beaucoup moins fréquemment l’objet de recherche sur Internet.

Le programme de reconnaissance vocale de Google regroupe plusieurs milliards de bribes de texte et sons. Selon Mike Cohen, pour mettre au point ne serait-ce qu’une partie de ce programme, il a fallu «environ 70 années processeur». Le «nuage» de processeurs de Google est capable de tout traiter en une journée. «C’est l’une des choses qui font que je travaille pour Google aujourd’hui», confie Mike Cohen. «Nous sommes désormais capables de parcourir les résultats de recherches plus rapidement, d’appliquer ces immenses modèles pour voir ce qui fonctionne.»

La reconnaissance vocale est une discipline encore jeune. «Nous ne nous satisfaisons pas de ce qui existe dans ce domaine aujourd’hui.» Le directeur du système de reconnaissance vocale de Google souligne que cet outil ne cesse de s’améliorer (du reste, de plus en plus de gens continuent d’utiliser la fonction de recherche vocale des téléphones Android), mais précise qu’il faudra encore plusieurs années ou décennies pour arriver à ce qu’il appelle la vision à long terme de Google en matière de reconnaissance vocale.

Et de conclure: «Nous voulons que [la fonction de reconnaissance vocale] soit omniprésente. Quelle que soit l’application que vous utilisiez, peu importe ce que vous souhaitez faire via votre téléphone, nous voulons que vous puissiez lui parler.»

Farhad Manjoo

Traduit par Micha Cziffra

Devenez fan sur , suivez-nous sur
 
L'AUTEUR
Farhad Manjoo, ancien chroniqueur high-tech à Slate.com, est désormais au Wall Street Journal. Vous pouvez toujours le suivre sur Twitter @fmanjoo Ses articles
TOPICS
PARTAGER
LISIBILITÉ > taille de la police
SLATE CONSEILLE
Le futur des mobiles
Le web a-t-il encore un avenir?
D'autres ont aimé »
Publié le 23/04/2011
Mis à jour le 23/04/2011 à 18h10
4 réactions