mercredi 14 novembre 2007

Traduction et Google, l'apprenti traducteur

Traduction et Google, l'apprenti traducteur

Selon ses intemporels et ses bonnes habitudes, Google innove aussi dans la traduction automatique en conférant qualité, simplicité, rapidité, gratuité, universalité, originalité et interactivité à son système.


Dans innovation il y a nouveauté, et la présentation en bitexte (c'est-à-dire avec le texte cible présenté en regard du texte source) est une exclusivité Google. Il se peut que d'autres systèmes s'y mettent, ce serait même souhaitable, comme avec un autre concept intéressant, celui de Systran box, où il n'y a même plus besoin de cliquer !

Mais là encore, Google est précurseur et ne dément pas son originalité. Ni son désir d'interactivité puisque chacune des traductions automatiques que fournit le système peut être améliorée par l'internaute.

Dans la version bitexte, une fenêtre s'ouvre en bas du texte traduit lorsque l'on clique sur le lien "proposer une meilleure traduction", où chacun peut intervenir et saisir sa propre version d'un passage choisi.

Google prévient : nous utiliserons vos suggestions pour améliorer la qualité de nos traductions lors de prochaines mises à jour de notre système (We'll use your suggestion to improve translation quality in future updates to our system).

Et soyons sûr que nos suggestions seront passées au crible... Idem pour les traductions de pages Web :


où en sélectionnant une portion traduite, une fenêtre de suggestion propose l'original correspondant et la possibilité d'intervenir.

Sur la qualité maintenant, j'entends déjà une levée de boucliers. On pourra toujours m'opposer quantité d'anecdotes plus ou moins croustillantes sur les balbutiements du système. Il n'empêche que les capacités apprenantes de Google, traducteur automatique sont déjà en place (Google qui ne rechigne d'ailleurs pas à faire appel aux bonnes volontés), et que son approche statistique lui a déjà permis de devancer des compétiteurs de poids (IBM, Systran, etc.) et d'avancer à pas de géant dans la TA.

Jean Véronis, qui s'y connaît, nous dit en commentaire de ce billet que l'approche retenue par Google souffre deux écueils :
1) Elle est très sensible à la quantité et au type de textes parallèles disponibles. pour certains couples de langues, comme allemand-français, il y en a très peu (essentiellement des textes institutionnels comme ceux de l'ONU ). L'apprentissage statistique est donc nécessairement mauvais.

2) Elle procède par apprentissage de "n-grammes", c'est-à-dire de suites de n mots consécutifs (trigrammes, etc.). Ca ne marche pas trop mal dans le cas des langues dites à ordre fixe (français, espagnol, anglais, etc.), mais beaucoup moins bien sur les langues à ordre variable (allemand, russe, etc.).
Pour autant, de nombreux autres champs de recherche sont parcourus, comme l'explique le rapport final du Machine Translation Working Group sur les technologies “MINDS”, acronyme de Machine Translation (MT), Information Retrieval (IR), Natural Language Processing (NLP), Data Resources (Data) & Speech Understanding (ASR).

Notamment avec la traduction automatique multimoteur (Multi-Engine Machine Translation), qui consiste à tirer parti de différentes approches et différents modèles, puisqu'aucune approche ni aucun modèle seuls ne sont la panacée. D'où la nécessité de faire levier sur la diversité des recherches pour faire avancer la TA (...there has recently been a surge in interest in approaches that can synthetically combine different MT engines operating on a common input into a “consensus” translation which surpasses all the individual MT engines in its quality).

Un domaine où Google nous réserve probablement encore bien des surprises...


Partager sur Facebook

P.S. Si vous voulez tester Google traduction :



, , , ,

3 commentaires:

Anonyme a dit…

Bonjour,

Merci pour ce billet très intéressant. Avez-vous essayé le tout nouveau système de mes collègues de Microsoft Research (MSR) dont j’ai parlé ici il y a deux mois:

http://blogs.msdn.com/correcteurorthographiqueoffice/archive/2007/09/13/windows-live-translator-le-nouveau-service-de-traduction-automatique-sur-le-web-de-microsoft.aspx

Les 4 types d’affichage sont une innovation intéressante (qui date d’avant la présentation bitexte dont vous parlez ici, en fait, si je ne m’abuse). Je serais curieux de connaitre votre avis sur la question. Il reste bien évidemment beaucoup à faire, mais c’est assez passionnant de suivre tous ces développements.

Bien à vous,

Thierry Fontenelle [MSFT]

Jean-Marie Le Ray a dit…

Thierry,

Merci pour votre commentaire. J'ignorais totalement le service de Microsoft, je ne vais presque jamais sur les produits Microsoft en ligne, même si ça ne m'empêche pas d'en parler.

Sur le fond, j'ai vu que la technologie utilisée est celle de Systran, donc rien de nouveau, je montre dans mes billets sur Google traducteur et la traduction automatique que la technologie de Google, bien qu'il soit le dernier arrivé dans ce domaine, a une pertinence et une qualité meilleures que Systran.

C'est d'ailleurs bien dommage que Microsoft qui, là encore, avait plusieurs longueurs d'avance sur Google, n'ait pas progressé en TA au fil des ans.

La seule chose que je reconnais volontiers à Microsoft, c'est le service immense rendu à notre métier et à la terminologie en général en ayant mis gratuitement à disposition ses fameux glossaires. Excès de générosité ou pas, c'est remarquable.

Jean-Marie

Anonyme a dit…

Bonjour Jean-Marie,

Merci pour votre réaction. Si vous relisez attentivement mon billet, vous verrez que, justement, le système développé en interne par MSR est maintenant disponible et qu’il remplace Systran pour les textes dans le domaine de l’informatique. C’est également un système statistique développé sur la base des corpus de millions de mots de la base de connaissances. C’est ce que j’ai voulu dire en écrivant ceci :

Le service utilisera alors le système de traduction automatique basé sur les statistiques développé par l’équipe de Microsoft Research (MSR). Ce système “maison” est disponible pour les paires de langues suivantes: anglais vers l’allemand, le français, l’italien, le portugais brésilien, le chinois (traditionnel et simplifié) ainsi que le japonais. Le système de TA de MSR est déjà utilisé pour traduire la collection d’articles de la Base de Connaissances (Knowledge Base) de Microsoft lorsque la traduction humaine n’est pas encore disponible. Il a été entraîné sur d’énormes corpus de textes bilingues.

Je vous invite à consulter leur blog, étant donné qu’il s’y passe beaucoup de choses depuis quelques semaines (avec des gadgets que vous pouvez installer, comme leur Toolbar Translator Button, lancé il y a une semaine) :

http://blogs.msdn.com/translation/default.aspx

Je ne suis pas directement et personnellement impliqué dans les activités en matière de terminologie, mais si vous avez des commentaires concernant nos outils de vérification linguistique (par exemple notre correcteur orthographique), n’hésitez pas à m’en faire part, bien sûr. C’est un champ d’activités qui nous occupe beaucoup aussi et l’avis de traducteurs comme vous nous intéresse.

Bien à vous,

Thierry Fontenelle [MSFT]