Un sondage du British Council, une institution gouvernementale du Royaume-Uni dédiée à la promotion de la langue anglaise, a montré que 60% des 16-34 ans utilisent les applis de traduction sur leur smartphone lorsqu’ils ou elles sont à l’étranger.
Pendant la Coupe du monde cet été en Russie, Reuters avait fait un reportage sur l’omniprésence de Google Translate, utilisé par les supportrices et supporters des différentes nations pour communiquer. Son utilisation avait alors augmenté de 60%, notamment pour traduire les mots «stade» et «bière».
En mars, Microsoft a annoncé que son intelligence artificielle avait réussi à atteindre des performances humaines en termes de traduction. C’est-à-dire que des articles de presse ont été traduits du chinois vers l’anglais par une machine, aussi bien que l’aurait fait un traducteur ou une traductrice de chair et de sang.
Des logiciels pas toujours fiables
Toutefois, quiconque a déjà tenté de rendre un devoir d’espagnol fait à la dernière minute sait que ces applications sont loin d’être entièrement fiables. L'expression n’est pas assez fluide et il existe de nombreux bugs. Numérama montrait en juillet que lorsqu’on tape du charabia dont on demande une traduction depuis une langue mal connue, le logiciel se met à prêcher des incantations à tonalité pseudo-biblique. Par exemple, vingt-cinq fois la syllabe «ag» traduite depuis le maori donne la phrase «À quel point une avidité gourmande est-ce que nous voulons être?»
En fait, ce bug permet de comprendre comment fonctionnent les logiciels de traduction. Plutôt que de piocher chaque mot individuellement dans une base de données, Google Translate et les autres utilisent le deep learning («apprentissage profond»), une sorte d’intelligence artificielle pensée pour s'approcher de la manière dont les humains réfléchissent. La machine compare son premier jet à des traductions humaines pré-existantes et se corrige en conséquence. Ainsi, l’algorithme apprend de ses erreurs et se perfectionne tout seul.
Le rapport avec le bug évoqué plus haut? Lorsqu’il existe peu de traductions entre deux langues (le français et le maori par exemple) le logiciel se réfère aux rares existantes. Et au moins un texte est traduit dans toutes les langues: la Bible. D’où le sermon sur l’avidité cité précédemment.
Toutes les langues ne se valent pas
Ce dysfonctionnement illustre aussi une impasse du deep learning. Lorsqu’une langue n’a pas beaucoup été traduite par des humains, les logiciels ne disposent pas d'assez de ressources pour apprendre. Microsoft peut donc traduire de manière très performante le chinois vers l’anglais car ce sont les langues les plus utilisées au monde et que son IA peut piocher dans un très large éventail de traductions. Ce ne serait pas possible avec des langues peu documentées.
Une autre impasse est la rapidité de l’évolution des langues. Les résultats obtenus par Microsoft se basaient sur des articles de presse, soit une écriture relativement classique et codifiée. Ce n’est pas le cas des langues courantes. Par exemple, un vieux manuscrit traduit du français à l’anglais ne va pas du tout ressembler au français parlé d’aujourd’hui. La machine sera confuse devant la différence de fond comme de forme des deux textes qui sont pourtant écrits dans la même langue.