Que vous vous connectiez depuis les États-Unis, le Brésil, Bornéo ou la France, Facebook peut traduire pratiquement tout contenu écrit publié sur sa plate-forme dans la langue locale à l’aide de la traduction automatique. En fait, Facebook fournit environ 20 milliards de traductions chaque jour pour son fil d’actualité uniquement. Cependant, ces systèmes utilisent généralement l’anglais comme étape intermédiaire – c’est-à-dire que la traduction du chinois au français passe du chinois à l’anglais vers le français. Cela est dû au fait que les ensembles de données de traductions vers et depuis l’anglais sont massifs et largement disponibles, mais placer l’anglais au milieu réduit la précision globale de la traduction tout en rendant l’ensemble du processus plus complexe et plus encombrant qu’il ne devrait l’être. C’est pourquoi Facebook AI a développé un nouveau modèle de MT qui peut traduire de manière bidirectionnelle directement entre deux langues (chinois vers français et français vers chinois) sans jamais utiliser l’anglais comme béquille – et qui surpasse le modèle anglophone de 10 points sur les métriques BLEU.

«Le défi majeur est de savoir comment utiliser les systèmes de traduction dont nous disposons, puis répondre à la demande des gens du monde entier, a déclaré à TechQ Angela Fan, une associée de recherche chez Facebook AI. «Vous traduisez donc dans toutes les langues et dans toutes les directions que les gens veulent réellement. Par exemple, il existe de nombreuses régions dans le monde où les gens parlent plusieurs langues, dont aucune n’est l’anglais, mais les systèmes de traduction existants reposent largement sur des données uniquement en anglais. » Sur les milliards de messages publiés quotidiennement dans 160 langues sur la plate-forme Facebook, les deux tiers sont dans une langue autre que l’anglais, a-t-elle noté.

Surnommé M2M-100, Facebook affirme qu’il s’agit du premier modèle de traduction automatique multilingue (MMT) capable de traduire directement entre n’importe quelle paire sur un ensemble de 100 langues. En tout, FBAI a construit un énorme ensemble de données composé de 7,5 milliards de phrases pour 100 langues. Grâce à cela, l’équipe de recherche a formé un modèle de traduction universel avec plus de 15 milliards de paramètres «qui capture des informations à partir de langues apparentées et reflète un script plus diversifié de langues et de morphologie», selon un article de blog Facebook lundi.

Lire aussi  Extreme E pousse le début des courses hors route jusqu'en mars 2021

Pour ce faire, Facebook a dû collecter toute une série de données accessibles au public du monde entier à l’aide de diverses techniques nouvelles. «Une grande partie de cela s’appuie vraiment sur le travail que nous avons effectué pendant de nombreuses années dans la recherche sur Facebook, qui sont comme toutes les différentes pièces Lego que nous avons en quelque sorte assemblées pour construire le système aujourd’hui», a expliqué Fan. 

Pour commencer, l’équipe a utilisé CommonCrawl, qui gère un référentiel ouvert de données d’analyse Web, pour collecter des exemples de texte à partir du Web. Ensuite, ils se sont mis à identifier la langue du texte en utilisant FastText, un système de classification de texte développé et open source par Facebook il y a quelques années, « Il examine essentiellement certains tests et essaie de décider dans quelle langue il est écrit », a déclaré Fan. «Nous partitionnons donc un tas de textes du Web dans toutes ces langues différentes, puis notre objectif est d’identifier les phrases qui seraient une traduction.»

«Traditionnellement, les gens utilisent des traducteurs humains pour créer des données de traduction», a-t-elle poursuivi. «C’est difficile à grande échelle car il est difficile, par exemple, de trouver quelqu’un qui parle anglais et tamoul, mais il est encore plus difficile de trouver quelqu’un qui parle français et tamoul ensemble, car la traduction non anglaise est encore un domaine qui doit être amélioré.»

Pour extraire ces données nécessaires à grande échelle, l’équipe de Fan s’est fortement appuyée sur le système LASER. «Il lit des phrases, prend le texte et crée une représentation mathématique de ce texte, de sorte que les phrases qui ont le même sens correspondent à la même pensée», a-t-elle déclaré. « Donc, si j’ai une phrase en chinois et en français, et qu’ils disent la même chose, ils se chevaucheront en quelque sorte – comme un diagramme de Venn – la zone de chevauchement est le type de texte que nous pensons être des phrases alignées. »

Bien entendu, toutes les langues n’ont pas une grande quantité de contenu écrit disponible sur Internet. Dans ces situations, l’équipe de Fan s’est tournée vers des données monolingues, qui ne sont que des données écrites dans une seule langue. En utilisant l’exemple du chinois vers le français, Fan a expliqué: «Donc, si mon objectif est de traduire du chinois vers le français, mais pour une raison quelconque, je n’obtiens pas une bonne qualité, alors je vais essayer de l’améliorer en prenant des données monolingues. en français. Et ce que je fais, c’est entraîner l’inverse du système: je passe du français au chinois. Je prends tout mon français, par exemple, sur Wikipédia, et je le traduis en chinois. » 

Lire aussi  La dernière station de travail de bureau de NVIDIA dispose de quatre GPU de 80 Go

Cela produit une multitude de données «synthétiques» générées par la machine, a poursuivi Fan. «J’ai donc créé ce chinois synthétique basé sur mon français rétro-traduit, puis je vais l’ajouter à nouveau au modèle avancé. Donc, au lieu de passer du chinois au français, j’ai du chinois plus mon chinois synthétique complété, le tout en français. Et parce que cela ajoute un tas de nouveaux exemples – à la fois du côté de l’entrée et du côté de la sortie – le modèle sera beaucoup plus fort. »

Reste à savoir si cela mènera à un Babel Fish numérique capable de traduire sans perte entre les quelque 6 200 langues parlées dans le monde. Fan note que le succès ultime de ce projet dépend de la quantité de ressources que l’IA peut exploiter. Pour les principales langues comme le français, le chinois, l’allemand, l’espagnol et l’hindi, ces ressources sont vastes. «Les gens écrivent des tonnes de texte sur le Web dans ces langues», a noté Fan. «Ils ont vraiment pu aider beaucoup de données, et nos modèles peuvent utiliser ces données pour s’améliorer.» 

«J’identifie personnellement de nombreux domaines dans lesquels nous pourrions avoir besoin d’être améliorés pour les langues à très faible ressource», a-t-elle poursuivi. «Pour les langues africaines, nous sommes assez bons en swahili et en afrikaans, nous pourrions utiliser beaucoup d’améliorations sur des langues comme le zoulou, et ces langues présentent des défis de recherche supplémentaires auxquels nous devons faire face.»

Facebook publie l’ensemble de données, le modèle, la formation et les configurations d’évaluation en open source à la communauté de recherche pour aider à stimuler de nouvelles avancées. La société prévoit également de continuer à développer le système de manière indépendante et éventuellement d’intégrer la technologie dans ses opérations quotidiennes.