OpenTrad, en face de la Tour de Babel
2006/04/01 Galarraga Aiestaran, Ana - Elhuyar Zientzia Iturria: Elhuyar aldizkaria
Le Journal de Catalogne est publié quotidiennement en deux langues: espagnol et catalan. Pour ce faire, ils n'ont pas deux fois plus d'employés ou ne consacrent pas deux fois plus d'heures au travail que d'autres journaux. Son secret est un traducteur de machine. Les journalistes écrivent le journal en espagnol, puis le traducteur automatique le place en catalan. Ils dirigent le texte entre plusieurs correcteurs et sont prêts à sortir dans la rue avec celui de castillan.
Le Journal de Catalogne est un exemple significatif de la mise en valeur des traducteurs automatiques. De plus, le traducteur qui a le journal n'est pas le seul traducteur de l'espagnol au catalan, mais beaucoup d'autres exemples. Par exemple, l'Université d'Alicante a créé interNOSTRUM pour la Caisse d'Épargne de la Méditerranée. La traduction se fait dans deux directions et permet désormais à quiconque de l'utiliser gratuitement sur le web du même nom. Cela admet des textes allant jusqu'à 16.384 caractères.
En outre, dans l'état espagnol il y a un traducteur automatique de galicien en espagnol, mais c'est un produit très fermé et limité. Et en basque, quoi ? Jusqu'ici peu. Le groupe IXA de la Faculté d'Informatique de l'UPV/EHU développait un système automatique de traduction de l'anglais au basque, mais ils n'avançaient pas aussi vite qu'ils le voulaient.
C'était la situation il y a deux ou trois ans. Cependant, le projet de développement de l'OpenTrad a été lancé en 2004. En fait, les chercheurs qui ont développé interNOSTRUM étaient connus par l'IXA, et Eleka Ingénierie linguistique et IXA travaillent ensemble. Ils ont rejoint des travaux similaires en Galice et ont commencé à créer un traducteur automatique open source grâce à la subvention du ministère de l'Industrie, du Tourisme et du Commerce.
Selon Eleka, Iñaki Arantzabal a défini dès le début des objectifs à deux niveaux: "d'une part, nous voulions obtenir un bon traducteur automatique, rapide et open source pour les couples galego-espagnol et catalano-espagnol et, d'autre part, un prototype pour traduire du castillan au basque. Il faut noter que le point de départ de toutes les langues n'était pas le même : le couple castillan catalan était assez avancé et, à l'autre extrémité, pour traduire automatiquement du castillan au basque, presque tout était à faire ».
Proche par surface
En cela, logiquement, la différence entre les langues est très influencée. Il est évident que l'espagnol, le galicien et le catalan sont beaucoup plus proches les uns des autres que de chacun d'eux. Par conséquent, il est beaucoup plus facile d'obtenir un bon système de traduction entre les langues romanes que lorsque le basque est présent.
C'est pourquoi OpenTrad dispose de deux moteurs de traduction automatique, l'un pour les traductions entre langues romanes, Apertium, et l'autre pour traduire du castillan au basque, Matxin.
Les deux sont basées sur les règles du langage. Il existe plusieurs formes de traduction automatique, mais les principales sont celles qui sont basées sur des collections de textes précédemment traduites, c'est-à-dire corpus, et celles basées sur des règles linguistiques – ordre des mots dans la phrase, déclinaison, verbes...--.
Iñaki Alegria, d'IXA, a expliqué que « les systèmes basés sur des règles linguistiques fonctionnent en trois phases. Ils réalisent d'abord une analyse syntaxique du texte original, puis réalisent un transfert dans l'autre langue et, finalement, créent le texte dans cette seconde langue ».
Pour la traduction en langues romanes, même si le transfert est superficiel, de bons résultats sont obtenus. C'est ce que fait InterNOSTRUM et d'où ils sont partis pour développer le moteur Apertium. Dans un sens, Apertium interNOSTRUM est une version améliorée en open source.
C'est ce que les catalans ont surtout gagné, que le code soit ouvert. En outre, OpenTrad a le code totalement séparé des ressources linguistiques. Grâce à cela, le système offre toutes les facilités pour l'interaction et l'adaptation aux besoins de l'utilisateur. Le système est prêt à assumer tous les changements à effectuer pour enrichir et améliorer.
Apertium effectue non seulement le transfert syntaxique. En outre, il a plusieurs 'filtres' pour affiner la traduction. Par exemple, il est capable de détecter les structures propres d'une langue et de leur donner leur équivalent dans l'autre. Par conséquent, une traduction de meilleure qualité est obtenue. Par exemple, le traducteur du duo espagnol-catalan a une fiabilité de 95%, c'est-à-dire que seulement cinq des cent mots traduits sont erronés.
Lointains en profondeur
Cependant, Apertium ne sert pas à traduire du castillan au basque. Les langues sont si différentes que le transfert syntaxique superficiel ne suffit pas. La structure des phrases change aussi radicalement, il faut donc un moteur d'analyse syntaxique profonde capable de construire un arbre de dépendances, de réaliser un transfert et de produire le texte en basque. Pour cela, ils ont créé Matxin.
L'IXA a reconnu que pour développer Matxin ont dû faire un "dur travail", et le résultat n'est pas aussi bon que ce que Apertium offre dans la traduction entre les langues romanes. Dans tous les cas, ils ont atteint l'objectif initialement marqué, car il s'agissait de créer une infrastructure.
D'autre part, la qualité de la traduction dans le développement du traducteur automatique a été l'une des principales préoccupations, mais il a également pris soin de la vitesse du système. En ce sens, ils ont reconnu leur satisfaction. Cela permet de parcourir les pages web dans la langue traduite. Selon un exemple d'Arantzabal, l'original étant l'espagnol, il y a la possibilité de naviguer en gipuzkoa.net en catalan et galicien à travers OpenTrad.En regardant en avant
Jusqu'à présent, on a obtenu un bon et rapide système automatique qui traduit dans les deux sens pour les couples galego-espagnol et catalano-espagnol, ainsi qu'un prototype pour traduire du castillan au basque. Selon le responsable d'Eleka, « nous avons atteint l'objectif ».
Mais ils n'ont pas l'intention de rester là. "Nous voulons continuer à améliorer et à compléter. Une façon d'améliorer les résultats est de se concentrer sur des domaines spécifiques. Dans chaque domaine on utilise un langage propre, avec moins de problèmes d'ambiguïté qu'en agissant en général. Par conséquent, la qualité augmente en adaptant le traducteur à un champ, par exemple en incorporant le vocabulaire terminologique correspondant». Avec tout cela, ils espèrent améliorer leur fiabilité.
En outre, ils prétendent ajouter d'autres à la technologie par règle, en particulier, ils veulent utiliser corpus parallèles. Ainsi, si vous voulez traduire une phrase, vous remarquerez d'abord si elle est déjà traduite ou s'il y a quelque chose de semblable. S'il y a quelque chose de plus tôt, il partira de là pour traduire. En revanche, s'il n'y a rien de semblable, il utilisera la technologie de règle».
En plus d'améliorer et de compléter, ils veulent créer un traducteur automatique pour traduire de l'euskera à l'espagnol. Grâce à cela, les externes auraient la possibilité de connaître ce qui est créé en basque. Un autre objectif à venir est de pouvoir traduire de l'anglais au basque.
Pour donner ces avancées, Arantzazu espère compter sur le soutien du Gouvernement basque. En fait, il y a quelques années, le Gouvernement Basque chargea une entreprise catalane de développer un prototype de traduction automatique. Maintenant, OpenTrad est le système le plus avancé de l'État. C’est pourquoi Arantzazu dit: "Nous voulons convaincre le Gouvernement basque de promouvoir notre système. Nous croyons qu'au moins on ne peut pas rester dehors".
· http://www.opentrad.net
· http://apertium.sourceforge.net
· http://matxin.sourceforge.net