Life

Tout ce que peut faire Google Traduction

Temps de lecture : 9 min

Il parle déjà 57 langues; son niveau égale celui d’un enfant de 10 ans. Et demain?

Drapeaux dans le parc technologique de Barcelone, juillet 2007. borkur.net via Flickr CC License by

Un ordinateur capable de traduire une «langue naturelle»: tel est le Saint Graal du monde de l’intelligence artificielle. Notre langue est si étroitement liée à notre intelligence et à notre humanité qu'un tel exploit équivaudrait à l'invention d'une conscience artificielle à part entière.

Mais jusqu'à une période relativement récente, les tentatives des scientifiques s'étaient soldées par des résultats lamentables. Les prototypes mélangeaient souvent les mots d'une langue avec la grammaire de l'autre, et finissaient par se tromper sur les deux tableaux. Le principal problème: la traduction littérale –le terme allemand «kindergarten» devenait ainsi «enfants jardin», et non «jardin d'enfants». De nouvelles méthodes –pour la plupart élaborées par Google– sont parvenues à surmonter cet obstacle. Elles ont refusé de «déconstruire» les langues, et ont appris la signification des mots aux ordinateurs de façon traditionnelle (en s'aidant d'un savant mélange de données, de statistiques et de force brute).

La grammaire et la syntaxe ne suffisent pas pour traduire

Lorsqu'on voulait apprendre une langue à un ordinateur, on avait jusqu'ici tendance à employer des méthodes qui s’appuyaient sur les règles de la grammaire –mais la technique de Google s'avère beaucoup plus efficace. Les méthodes traditionnelles partent du principe qu'une langue peut être «décodée», qu'il est possible de la démonter afin d'isoler ses principales unités de «sens»; tout ceci avant de la réassembler pour lui donner la forme d'une autre langue.

Des linguistes entrent des listes de vocabulaire, des éléments de grammaire et d’innombrables règles de syntaxe dans un ordinateur –mais on ne formalise pas une langue si aisément. Les règles ne peuvent répertorier l'ensemble de ses exceptions, de ses restrictions et de ses ambiguïtés. Et lorsqu'on y pense, cette approche ne prend pas véritablement en compte toute la complexité du problème.

La nouvelle méthode de Google Traduction

Mais c’était avant l’arrivée de Google Traduction –qui domine incontestablement le secteur, même si la firme n'a pas inventé cette méthode. Ce système ne fait pas l'erreur d'enfermer le langage dans ce concept pour le moins réducteur. L’outil s'appuie sur du contenu traduit existant, isole les mots et les phrases qui ont tendance à correspondre, et propose le résultat le plus adapté au contexte (en ayant recours aux probabilités).

Google étant ce qu'il est, sa pierre de Rosette n'est autre qu'Internet -–des milliards et des milliards de mots, que ce soit un corpus de documents des Nations unies (traduction de bonne qualité en six langues), des notes d'entreprises ou un roman de la série Harry Potter.

Google a certes élaboré un «modèle linguistique», qui décrit la forme standard d'une phrase bien construite; pour autant, la firme n'a jamais engagé de linguistes pour «décoder» les langues. La méthode statistique de Google s'inspire donc –avec succès– de la fameuse maxime de Ludwig Wittgenstein:

«Ne cherchez pas le sens, mais l'usage.»

Dans son merveilleux livre Is That a Fish in Your Ear?, David Bellos (professeur de linguistique à Princeton et traducteur) établit un lien entre les premières tentatives de traduction automatique et les philosophes modernes du langage: cette volonté futile de découvrir «la langue unique –et purement hypothétique– que chaque être humain parle dans les grands souterrains de son âme».

Lorsque nous avons discuté de Google, Bellos a fait remarquer que les progrès réalisés par la firme ne signifiaient pas que Google Traduction fonctionnait comme un traducteur en chair et en os. Certes, il vous fournit une traduction –mais en dépit des apparences, l'outil ne traduit pas véritablement. (Tout dépend du sens que l'on donne au terme «traduction» –mais ne compliquons pas les choses).

«C'est comme la différence entre la technique et le savoir, explique-t-il. Une solution technique permet de faire fonctionner quelque chose, mais la méthode employée ne prend pas forcément en compte les éléments sous-jacents. Un avion et un oiseau ne volent pas de la même façon.»

Ce qui est vrai, indubitablement. Mais même si Google Traduction ne traduit pas les langues à la manière des êtres humains, il est néanmoins possible de dresser quelques parallèles –et ce notamment quant à la méthode d'apprentissage de l'outil.

Comme pour les enfants, les règles de grammaire sont implicites

Les enfants n'apprennent pas une langue en mémorisant des règles prescriptives ou en faisant de l'analyse logique. Avant d'entendre parler de sujets, de verbes et de noms, il faut déjà savoir parler couramment, ou presque. Lorsque j'ai abordé la question avec Franz Och (le responsable de Google Traduction), ce dernier m'a expliqué qu'avec le recul, cette réalité lui paraissait presque évidente: les méthodes construites autour des règles du langage ne sont pas forcément plus efficaces que celles qui s'appuient principalement sur les données.

Lorsqu'un enfant apprend à parler, «on lui donne des exemples, on échange avec lui –la grammaire n'est jamais explicite; elle est toujours implicite, note-t-il. De la même manière, lorsque notre système est en phase d'apprentissage, une bonne partie de la grammaire n'est pas explicite –elle est implicite dans les paramètres du modèle, dans le résultat que l'utilisateur obtient».

Wittgenstein, là encore. La traduction était l'un des nombreux exemples utilisés par le philosophe pour illustrer sa notion de «jeu de langage», une forme d'obéissance aux règles: nous participons au jeu (de la traduction) sans avoir directement recours à ses règles implicites. La traduction ne peut être réduite à ses règles (grammaire, syntaxe, sémantique) mais elles sont toujours présentes –sous la surface, en un sens. De la même manière, Google Traduction ne comprend pas les «règles»; selon Franz Och, elles sont implicites, et sont apprises de façon implicite.

L'intelligence presque humaine de Google Traduction

Ce n'est peut-être qu'une métaphore –mais chez Google, ce n'est pas la première fois que les théories de Wittgenstein sont appliquées à la technique (intentionnellement ou non). Si le moteur de recherche de la firme est si puissant, c'est en partie grâce à sa gestion intelligente du contexte.

Tapez «hot dogs»: les résultats affichés seront consacrés au sandwich, pas aux chiens; le moteur de recherche s'appuie sur la ressemblance familiale. Dans son récent ouvrage consacré à Google, In the Plex, Steven Levy relate un entretien avec le spécialiste des moteurs de recherche Amit Singhal. Ce dernier laisse entendre que les employés de la firme sont parfaitement conscients de l'influence que peut avoir Wittgenstein sur leurs travaux, et que ce dernier leur a permis de réaliser une avancée d’importance.

Autre exemple: «Aujourd’hui, si vous tapez “bio de Gandhi”, on sait que “bio” veut dire “biographie”, explique Singhal dans l’ouvrage de Levy. Et si vous tapez “guerre bio”, on sait que vous voulez dire “biologique”». Autrement dit, le moteur de recherche améliore sa pertinence sémantique grâce à l’activité humaine; tout apport de donnée l’améliore, et c’est également le cas de Google Traduction.

Google Traduction faisait plus d’erreur à ses débuts, lorsque ses données étaient faussées par le jargon juridique de la documentation des Nations unies et de l’Union européenne: Bellos explique qu’à l’époque, le terme «salade d’avocat» était ainsi traduit par «lawyer salad» en anglais: dans les couloirs de l’Union européenne, on parlait plus de juristes que de cuisine.

Des capacités linguistiques d'un enfant de 10 ans

Ces innombrables «ressemblance familiales» sémantiques coulent de source pour les humains. Et nous pouvons de toute évidence les enseigner aux machines –il suffit pour ce faire de réunir plus de données. Google est le premier à avoir eu l’idée de mettre cette idée en pratique, réalisant par là-même un progrès significatif. Les ordinateurs ne se contentaient plus de déchiffrer la syntaxe: ils pouvaient comprendre le sens d’une phrase dans toute sa force, avec une intelligence capable de s’adapter à chaque contexte.

Les capacités linguistiques de l’algorithme égalent aujourd’hui environ celles d’un enfant de dix ans, mais son rythme d’amélioration dépasse de très loin les capacités d’apprentissage d’un être humain. Et lorsque je dis que l’ordinateur «apprend», ce n’est pas une image: selon Franz Och, «on peut véritablement dire qu’il apprend toutes ces langues». Il n’est certes pas capable de construire ses propres phrases, d’assimiler Gödel, Escher, Bach et de répondre à vos questions (telle une intelligence artificielle aboutie), mais il apprend en autodidacte, à partir des données.

Google Traduction pourrait-il être meilleur traducteur que nous?

L’accès à ces informations permettra-il aux ordinateurs d’acquérir une connaissance du langage supérieure à la nôtre? Pourraient-ils même devenir de meilleurs traducteurs que nous? Il suffit de mener une réflexion portant sur les difficultés et les subtilités de l’art (et de la pratique) de la traduction - de l’interprétariat au sous-titrage de films – pour comprendre qu’une telle interrogation est presque ridicule. Presque. Bellos s’est déclaré très admiratif des innovations apportées par Google, mais a également souligné leurs limites:

«Les machines ne sont pas (du moins, pour le moment) comparables aux traducteurs humains.»

Pour égaler les humains, une machine devrait être capable de replacer chaque élément dans son contexte. Sa compréhension des différences culturelles devrait être particulièrement complexe; ancrée au cœur de son fonctionnement. Elle devrait pouvoir comprendre la force du sens –qui ne se résume bien évidemment pas aux innombrables pages de données auxquelles elle a accès ou aux informations factuelles qu’on lui fournit. Ceci étant dit, il faut bien admettre qu’une bonne connaissance des données constitue une part importante de la compréhension d’une langue –et chez Google, les données, ce n’est pas ce qui manque.

La barrière séparant l’homme et la machine est peut-être moins haute que nous ne le pensons. La loi de Moore –qui veut que la puissance d’un ordinateur soit multipliée par deux à prix constant tous les dix-huit mois– est encore d’actualité, et ses effets ne peuvent être sous-estimés.

Chaque année apporte son lot de données nouvelles et d’améliorations apportées au modèle. La grande question est de savoir si la méthode de Google –qui demande une énorme quantité d’informations– comporte des limites clairement identifiables. «Une chose est claire: la qualité de nos traduction va continuer de s’améliorer, précise Franz Och. Reste à savoir où sont les limites; là est la question fondamentale.»

Pendant ce temps, la gigantesque banque de données de Google continue de s’initier aux langues telles que nous les parlons; intègre toutes leurs complexités et leurs incohérences. Aucun outil de traduction reposant sur les règles du langage ne lui arrive à la cheville lorsqu’il s’agit des jurons et des mots d’argot; elle suit l’évolution de chaque langue.

Elle parle le français d’aujourd’hui, qui confond souvent «occasion» et «opportunité», «pathétique» et «minable» - sans jamais se soucier de l’avis des puristes de la linguistique. Le seul avis qui compte demeure celui de Google. Et ce privilège s’étend à des dizaines de langues.

Cet outil est un atout de taille pour Google

Cette mine de connaissances relatives au langage (et à la manière dont nous le parlons) repose entre les mains d’une seule et unique société privée. Devrions-nous nous en inquiéter? La pratique de la traduction peut demander un certain tact; on ne peut confier une telle responsabilité aux algorithmes d’une machine, en haussant les épaules. Et nous sommes en droit de nous demander quel pouvoir Google en retire –d’autant plus que la firme aime à afficher son dégoût pour les eaux troubles de la politique et de la culture; or en se posant en grand administrateur du langage, elle y navigue de facto. A force de bricolages techniques et de grandes ambitions, Google pourrait très bientôt faire son apparition dans les sphères publique, sociale et morale –le chercheur Evgeny Morozov l’a brillamment expliqué dans ses écrits.

A la manière de Wittgenstein, je n’avancerai aucune théorie –mais ces considérations donnent matière à réflexion. Grâce à une technologie intelligente (conçue par une équipe qui ne l’est pas moins), Google domine aujourd’hui le secteur du langage et de la traduction. Cette réussite confirme l’absurdité des règles prescriptives (une petite victoire pour les apôtres de la grammaire descriptive –mais l’affaire était déjà entendue), et l’intérêt des observations de Wittgenstein, qui recèlent bel et bien un modèle efficace d’apprentissage artificiel des langues.

Google Traduction ne pourra égaler les traducteurs humains avant bien longtemps; peut-être la chose est-elle d’ailleurs complètement impossible. Mais le jour viendra où la qualité de ses traductions sera jugée «suffisamment bonne»: moins chère et plus pratique qu’un traducteur professionnel (et pour les moins regardants, c’est déjà le cas) ou qu’un professeur de langues. Et à ce stade, le «suffisamment bon» deviendra la nouvelle norme. Au final, qu’attendons-nous de nos traducteurs automatiques?

Jeremy Kingsley

Ecrivain à Londres

Traduit par Jean-Clément Nau

Newsletters

Comment mesure-t-on l'indice de la crème solaire?

Comment mesure-t-on l'indice de la crème solaire?

Indice 70, indice 20, indice 5... Qu'est-ce qui fait la différence?

Freud sur le bout de la langue

Freud sur le bout de la langue

Comment les concepts et réflexions du père de la psychanalyse ont imprégné une langue et y sont restés nichés.

La nouvelle tablette de Microsoft pourra-t-elle remplacer votre ordi portable?

La nouvelle tablette de Microsoft pourra-t-elle remplacer votre ordi portable?

Il y a un mois environ, délaissant le petit pour le gros, Microsoft a dévoilé sa Surface Pro 3, soit sa tablette la plus grande et la plus impressionnante de son histoire. Avec un écran de 12 pouces (!) et une fourchette de prix allant de 799€ à...

Podcasts Grands Formats Séries
Slate Studio