Life

La traduction automatique n'est toujours pas d'actualité

Temps de lecture : 9 min

Pour que la traduction automatique devienne utilisable, il faut enseigner aux machines la signification des mots. Ce qui n’est pas une mince affaire.

Une ancienne machine à écrire  / Nicole Lee via FlickrCC Licence by
Une ancienne machine à écrire / Nicole Lee via FlickrCC Licence by

Il n’y a pas très longtemps, au huitième étage d’un immeuble de bureau d’Arlington, en Virginie, Rachael, le doigt posé sur l’écran tactile d’un Dell Streak, demanda à Aziz s’il connaissait l’ancien du village. La petite tablette émit des bips comme si elle imitait R2-D2 et énonça une phrase qui ressemblait à: «Aya tai ahili che dev kali mousha.» Aziz répondit une phrase en pachtoune que le Streak traduisit d’un ton monocorde par «Oui, je connais

Rachael demanda: «Pourriez-vous me le présenter?» mais Aziz ne comprit pas la traduction de la machine (alors qu’il parle anglais). Rachael reposa donc la question: «Pouvez-vous me présenter l’ancien du village?» Cette fois, l’opération aboutit, sans réussir tout à fait. Aziz, par le biais de la machine, répondit: «Oui, je peux me présenter à vous.» Aziz, qui doit avoir la quarantaine et portait un pull sans manche, n’était pas l’ancien du village.

Le logiciel utilisé sur la tablette était la version la plus aboutie de TransTac, projet développé depuis cinq ans par la Defense Advanced Research Projects Agency (DARPA), visant à créer un système de traduction de la parole (par opposition aux systèmes basés sur des textes), et qui s’est achevé l’année dernière.

Mari Maeda, manager de la DARPA qui a exécuté ce programme, explique qu’au final, TransTac atteint un taux de précision tournant autour de 80%: suffisamment pour que cela soit intéressant, mais pas assez pour être utile. Quelques dizaines d’utilisateurs l’ont essayé en Irak et en Afghanistan—outre le pachtoune, ce programme s’appliquait aussi à l’arabe et au dari—mais personne n’a été impressionné au point de vouloir le garder.

Le vieux rêve de la traduction de la parole humaine par les ordinateurs

Cela ne signifie pas pour autant que TransTac soit un échec. Le logiciel a entrepris une tâche très difficile: faire en sorte qu’un ordinateur écoute quelqu’un parler dans une langue, traduise ce discours dans une autre langue et le prononce à haute voix.

Le rêve d’utiliser des ordinateurs pour traduire la parole humaine remonte aux tout premiers jours de l’informatique, quand les ordinateurs utilisaient encore des tubes à vide. Il s’est toujours avéré insaisissable.

La DARPA n’est naturellement pas la seule organisation à financer la recherche sur ce que les informaticiens appellent la «traduction automatique» (cela comprend à la fois des systèmes de traduction/restitution de parole comme TransTac et des systèmes qui traduisent des textes écrits, problème plus simple sous certains aspects bien que les principales difficultés soient les mêmes dans les deux cas).

Cette agence a cependant joué un rôle central. Le département de la Défense a dépensé presque 700 millions de dollars pour un seul contrat de traduction (pour des interprètes humains, principalement en Afghanistan) en une année, par conséquent les plus de 80 millions de dollars qu’il consacre à BOLT, le programme qui succède à TransTac, dans l’espoir d’économiser sur le budget interprètes à l’avenir, est une relativement bonne affaire.

Le problème, la qualité de la traduction

La question centrale au cœur de la plupart de ces projets est la suivante: comment évaluer la qualité d’une traduction? Même les humains peinent à comparer les traductions différentes d’un même texte. Cela rend le défi d’automatisation des évaluations encore plus difficile à relever. Et si vous ne savez ou ne pouvez évaluer votre niveau, il est difficile de progresser.

Pendant des décennies, les chercheurs ont été incapables de programmer les ordinateurs pour qu’ils produisent des traductions utilisables. Les soldats devaient se fier à des guides de conversation proposant la prononciation phonétique des phrases («VO ist NAWR-den?» est la phrase qu’une brochure de 1943 du département de la Guerre recommandait aux GI pour demander «Où se trouve le nord?» en allemand).

Le «Phrasealator,» que l’armée américaine a commencé à utiliser en 2004, n’était pas tellement plus avancé—il s’agissait essentiellement d’un guide de conversation informatisé. Mais ces dernières années la traduction automatique statistique (TAS) s’est beaucoup répandue, technique qui a énormément amélioré la qualité des traductions.

Trouver l’algorithme de la traduction

Plutôt que d’essayer de coder explicitement des règles de traduction d’une langue à l’autre, le but de la TAS est de faire en sorte que des algorithmes déduisent ces règles à partir de bases de données existantes constituées de textes traduits.

Les plus abondantes bases de données de ce genre sont celles des textes dont la loi exige qu’ils soient traduits en plusieurs langues, comme les rapports de l’Union européenne, traduits par des humains dans les 23 langues officielles de l’UE.

Et quand ces bases de données ne sont pas déjà disponibles, il faut les constituer soi-même. Pour TransTac, la DARPA l’a fait en enregistrant des sketches entre une cinquantaine de soldats et marines américains et une cinquantaine de locuteurs arabophones. Les participants ont mis en scène divers scénarios, comme la situation à un check-point ou la fouille d’une maison (en Californie, ceci dit).

De nouveaux modèles à créer

La principale difficulté pour la TAS est de trouver comment utiliser l’information contenue dans ces «corpus parallèles» pour construire des modèles de la manière dont fonctionne chaque langue, et de trouver comment les langues correspondent entre elles.

Un modèle pour une langue donnée— l’anglais par exemple—sert à estimer le degré de probabilité pour qu’une suite de mots constitue une phrase valable («logique traduction ardoise verte» par exemple, est une suite de mot improbable).

Les programmes de TAS établissent ensuite des corrélations entre les modèles de chaque langue. Généralement phrase par phrase, le programme traduit en trouvant des mots dans la langue d’arrivée qui ont à la fois une cohérence grammaticale ensemble et qui sont susceptible de bien correspondre avec leurs équivalents de la langue de départ.

Pour ce faire, les modèles doivent être capables d’aligner correctement les phrases. Or, il n’y a pas nécessairement une correspondance ligne par ligne entre deux langues différentes. Si une des phrases vous déconcerte et que vous alignez systématiquement mal toutes celles qui suivent, vous obtenez des données inutilisables.

Et il y a le problème de relier les mots de la langue source avec ceux de la langue cible—les mots non plus ne correspondent pas un à un, et l’ordre des mots dans la phrase peut varier de façon substantielle d’une langue à l’autre.

Mais l’idée est que si vous enfournez suffisamment de données, le «bruit» de l’imperfection de l’alignement va diminuer par rapport au signal de corrélations entre la même idée exprimée en différentes langues.

Dépasser les modèles statistiques

L’approche statistique a transformé le domaine. Pourtant, Bonnie Dorr, responsable de programme pour
BOLT, explique que la DARPA est aujourd’hui «très déterminée à dépasser les modèles statistiques.» la raison est qu’à mesure que l’on procure de plus en plus de données parallèles aux algorithmes, «les retours que l’on obtient réduisent. Le rendement devient moins important, et les résultats atteignent un plateau, même lorsqu’on augmente le volume de données.»

Au départ, cette «autre chose,» c’était la syntaxe: il fallait tâcher de faire l’analyse grammaticale de la phrase pour déterminer la fonction de chaque mot, puis tenter de faire correspondre les verbes et les noms entre eux.

Cela permet de gérer des problèmes comme des ordres de mots radicalement différents. Incorporer des informations syntaxiques dans des modèles statistiques semble avoir contribué à améliorer les performances. Mais cela n’a pas aidé les chercheurs à résoudre la question de base: est-ce une bonne traduction?

L’évaluation des programmes de traduction

Aujourd’hui, la meilleure façon d’évaluer les programmes de traduction automatique est d’avoir recours à une métrique conçue par IBM. Cette métrique, appelée BLEU, n’est pas très performante mais elle est utile car elle est cohérente.

BLEU fonctionne en comparant la traduction d’un texte particulier avec une traduction de référence du même texte, faite par un humain, et en établissant leur «proximité.»

Elle le fait en fournissant un résultat composite basé sur le nombre de mots de la traduction automatique que l’on retrouve dans la traduction humaine, sur le nombre de syntagmes de deux mots qui correspondent, de trois mots, de quatre mots… (les syntagmes longs correspondant dans les deux traductions sont très rares, voire non-existants).

Mais comme l'écrit Philip Koehn, éminent chercheur en traduction automatique, personne ne sait ce que signifient les résultats fournis par BLEU, et les bonnes traductions humaines obtiennent souvent des résultats à peine meilleurs au test BLEU que les traductions automatiques.

Koehn donne l’exemple d’une phrase traduite du chinois. Laquelle est la meilleure: «Israël est chargé de la sécurité dans cet aéroport» ou «Les autorités israéliennes sont responsables de la sécurité aéroportuaire»?

Rester fidèle au sens

Ce que l’on cherche à savoir, c’est si la traduction a su rendre le sens du texte, pas si elle a utilisé les mêmes mots. La DARPA espère pouvoir créer «une métrique d’évaluation sémantique» qui mesure le degré de fidélité au sens.

Une approche, déjà adoptée par la DARPA selon Dorr, consiste à avoir recours à un humain pour comparer les significations et déterminer combien de mots de la traduction automatique doivent être changés pour rejoindre le sens d’une traduction de référence.

Mais ce genre d’intervention humaine est longue et onéreuse. Les métriques d’évaluation sémantique de ce type peuvent être utilisées pour vous donner une idée de vos progrès à long terme, mais elles ne servent pas à grand-chose pour modifier les paramètres de votre modèle. Pour ça, vous devez pouvoir capter le sens de façon automatique.

Comprendre les phrases traduites

Le sens est naturellement une cible mouvante, mais ce n’est pas une proposition dans laquelle tout est blanc ou tout est noir. Un programme n’est pas obligé d’appréhender toutes les strates de sens contenues dans une phrase comme «Je vous aime» (et il en est d’ailleurs incapable).

Il peut seulement aider à déterminer que «aimer» n’est pas juste un verbe mais un mot émotionnellement chargé, et que «vous» n’est pas juste le complément de la phrase mais également la personne aimée.

Cette sorte de connaissance sémantique superficielle n’est pas intéressante si vous voulez connaître la signification à un niveau plus profond. Mais c’est assez pour être potentiellement utile. Rattacher ce genre de signifiants à des mots ou à des suites de mots est appelé «étiquetage sémantique

Ce type d’étiquetage est réalisé manuellement depuis longtemps. FrameNe, l’une des plus anciennes bases de données sémantiques, conçue par l’University of California-Berkeley, existe depuis 1997—elle compte aujourd’hui 170 000 phrases annotées à la main, comme «I’ll get even with you for this! [Je te revaudrai ça!]»

Mais 170 000 phrase est un groupe de données très modeste comparé aux bases de données de textes parallèles et non étiquetés qui existent. L’objectif des initiatives de traduction sémantique actuelles est de procéder à ce genre d’étiquetage automatiquement puis d’intégrer les résultats dans des modèles statistiques.

Comment coder l’ambiguïté?

L’étiquetage sémantique automatique est d’une évidente difficulté. Il vous faut gérer certaines choses comme la portée des quantificateurs imprécis. Prenez la phrase «Every man admires some woman. [Tout homme admire une femme]».

Il y a ici deux significations possibles. La première est qu’il existe une femme, une seule, admirée par tous les hommes. (Et cela vous donne une idée précise de l’époque de ma puberté si je vous dis que le premier nom qui me vient à l’esprit est celui de Cindy Crawford).

La deuxième est que tous les hommes admirent au moins une femme. Mais comment dites-vous cela en arabe? Idéalement, vous cherchez un syntagme comportant le même niveau d’ambiguïté.

L’objet de l’approche sémantique consiste à essayer de coder l’ambiguïté elle-même d’abord, plutôt que de tenter de passer directement de l’anglais à l’arabe (ou à quelque autre langue cible). Ensuite, le contexte plus large pourra aider votre algorithme à choisir comment rendre la phrase dans la langue d’arrivée.

Juger la transmission du sens

Une équipe de l’University of Colorado, financée par la DARPA, a construit un étiqueteur sémantique en open source appelé ClearTK. Elle évoque des difficultés, comme celle présentée par la phrase: «The coach for Manchester United states that his team will win [l’entraîneur de Manchester United déclare que son équipe va gagner].»

Dans cet exemple, la suite de mots «United States» n’a pas son sens habituel. Faire en sorte qu’un programme le reconnaisse et identifie les autres bizarreries de langue est assez délicat.

La difficulté de savoir si une traduction est bonne n’est pas seulement technique: elle est fondamentale. Le seul moyen durable de juger de la fidélité d’une traduction est de décider si le sens est transmis. Si vous réussissez à obtenir un algorithme capable d’en juger, alors vous avez résolu un problème vraiment très ardu.

Quand un système de traduction automatique fonctionnera efficacement, si c’est un jour possible, quand il «comprendra le sens,» alors ses rouages seront un mystère pour ses créateurs, presque autant qu’ils le sont pour l’ancien du village.

Cet article est extrait de Future Tense, une collaboration entre l’Arizona State University, la New America Foundation et Slate. Future Tense explore la manière dont les nouvelles technologies affectent la société, la politique et la culture. Pour en savoir plus, voyez le blog de Future Tense et sa page d'accueil. Vous pouvez aussi les suivre sur Twitter.

Konstantin Kakaes

Traduit par Bérengère Viennot

Newsletters

Comment mesure-t-on l'indice de la crème solaire?

Comment mesure-t-on l'indice de la crème solaire?

Indice 70, indice 20, indice 5... Qu'est-ce qui fait la différence?

La nouvelle tablette de Microsoft pourra-t-elle remplacer votre ordi portable?

La nouvelle tablette de Microsoft pourra-t-elle remplacer votre ordi portable?

Il y a un mois environ, délaissant le petit pour le gros, Microsoft a dévoilé sa Surface Pro 3, soit sa tablette la plus grande et la plus impressionnante de son histoire. Avec un écran de 12 pouces (!) et une fourchette de prix allant de 799€ à...

Freud sur le bout de la langue

Freud sur le bout de la langue

Comment les concepts et réflexions du père de la psychanalyse ont imprégné une langue et y sont restés nichés.

Podcasts Grands Formats Séries
Slate Studio