OpenTrad, frente a la Torre de Babel
2006/04/01 Galarraga Aiestaran, Ana - Elhuyar Zientzia Iturria: Elhuyar aldizkaria
El Periódico de Catalunya se publica diariamente en dos idiomas: castellano y catalán. Para ello, no tienen el doble de empleados o no dedican el doble de horas al trabajo que otros periódicos. Su secreto es un traductor automático. Los periodistas escriben el periódico en castellano y, a continuación, el traductor automático lo coloca en catalán. Dirigen el texto entre varios correctores y está dispuesto a salir a la calle junto con el de castellano.
El Periódico de Catalunya es un ejemplo significativo de la puesta en valor de los traductores automáticos. Además, el traductor que tiene el periódico no es el único traductor del castellano al catalán, sino otros muchos ejemplos. Por ejemplo, la Universidad de Alicante creó interNOSTRUM para la Caja de Ahorros del Mediterráneo. La traducción se realiza en dos direcciones y ahora permite a cualquier persona usarla gratuitamente en la web del mismo nombre. Eso sí, admite textos de hasta 16.384 caracteres.
Además, en el estado español hay un traductor automático de gallego a castellano, pero es un producto muy cerrado y limitado. ¿Y en euskera, qué? Hasta ahora poco. El grupo IXA de la Facultad de Informática de la UPV/EHU estaba desarrollando un sistema automático de traducción del inglés al euskera, pero no avanzaban tan rápido como querían.
Esa era la situación hace dos o tres años. Sin embargo, en 2004 se puso en marcha el proyecto de desarrollo de la OpenTrad. De hecho, los investigadores que desarrollaron interNOSTRUM eran conocidos por la IXA, y Eleka Ingeniería Lingüística y IXA trabajan juntos. Se unieron a trabajos similares en Galicia y comenzaron a crear un traductor automático de código abierto gracias a la subvención del Ministerio de Industria, Turismo y Comercio.
Según Eleka, Iñaki Arantzabal definió desde el principio objetivos a dos niveles: "por un lado, queríamos conseguir un buen traductor automático, rápido y de código abierto para las parejas galego-español y catalano-español y, por otro, un prototipo para traducir del castellano al euskera. Hay que tener en cuenta que el punto de partida de todas las lenguas no era el mismo: la pareja castellano-catalán estaba bastante avanzada y, en el otro extremo, para traducir automáticamente del castellano al euskera, casi todo estaba por hacer".
Cercanos por superficie
En ello, lógicamente, influye mucho la diferencia entre las lenguas. Es evidente que el castellano, el gallego y el catalán se encuentran mucho más cerca entre sí que de cualquiera de ellos. En consecuencia, es mucho más fácil conseguir un buen sistema de traducción entre las lenguas románicas que cuando el euskera está presente.
Por ello, OpenTrad cuenta con dos motores de traducción automática, uno para traducciones entre lenguas románicas, Apertium, y otro para traducir del castellano al euskera, Matxin.
Ambas se basan en las reglas del lenguaje. Existen varias formas de traducción automática, pero las principales son las que se basan en colecciones de textos previamente traducidos, es decir, corpus, y las basadas en reglas lingüísticas --orden de palabras en la frase, declinación, verbos...--.
Iñaki Alegría, de IXA, ha explicado que "los sistemas basados en reglas lingüísticas trabajan en tres fases. Primero realizan un análisis sintáctico-morfológico del texto original, luego realizan una transferencia al otro idioma y, finalmente, crean el texto en esa segunda lengua".
Para la traducción entre lenguas románicas, aunque la transferencia es superficial, se obtienen buenos resultados. Esto es lo que hace InterNOSTRUM y de ahí han partido para desarrollar el motor Apertium. En cierto modo, Apertium interNOSTRUM es una versión mejorada en código abierto.
Eso es lo que han ganado sobre todo los catalanes, que el código sea abierto. Además, OpenTrad tiene el código totalmente separado de los recursos lingüísticos. Gracias a ello, el sistema ofrece todas las facilidades para la interacción y la adaptación a las necesidades del usuario. El sistema está dispuesto a asumir todos los cambios que se quieran realizar para enriquecer y mejorar.
Apertium no sólo realiza la transferencia sintáctica. Además, tiene varios 'filtros' para afinar la traducción. Por ejemplo, es capaz de detectar estructuras propias de una lengua y darles su equivalente en la otra. En consecuencia, se consigue una traducción de mayor calidad. Por ejemplo, el traductor del dúo español-catalán tiene una fiabilidad del 95%, es decir, sólo cinco de cada cien palabras traducidas son erróneas.
Lejanos en profundidad
Sin embargo, Apertium no sirve para traducir del castellano al euskera. Las lenguas son tan diferentes que la transferencia sintáctica superficial no es suficiente. La estructura de las frases también cambia radicalmente, por lo que se necesita un motor de análisis sintáctico-morfológico profundo capaz de construir un árbol de dependencias, realizar una transferencia y producir el texto en euskera. Para ello han creado Matxin.
La IXA ha reconocido que para desarrollar Matxin han tenido que hacer un "duro trabajo", y el resultado no es tan bueno como lo que ofrece Apertium en la traducción entre las lenguas románicas. En cualquier caso, han conseguido el objetivo marcado inicialmente, ya que se trataba de crear infraestructura.
Por otro lado, la calidad de la traducción en el desarrollo del traductor automático ha sido una de las principales preocupaciones, pero también se ha ocupado de la velocidad del sistema. En este sentido, han reconocido su satisfacción. Esto permite recorrer las páginas web en el idioma traducido. Según un ejemplo de Arantzabal, siendo el original el castellano, existe la posibilidad de navegar en gipuzkoa.net en catalán y gallego a través de OpenTrad.Mirando hacia delante
Hasta el momento, se ha conseguido un buen y rápido sistema automático que traduce en ambos sentidos para las parejas galego-español y catalano-español, así como un prototipo para traducir del castellano al euskera. En palabras del responsable de Eleka, "hemos conseguido el objetivo".
Pero no tienen intención de quedarse ahí. "Queremos seguir mejorando y completando. Una forma de mejorar los resultados es centrarse en ámbitos concretos. En cada ámbito se utiliza un lenguaje propio, con menos problemas de ambigüedad que actuando en general. Por lo tanto, la calidad aumenta adaptando al traductor a un campo, por ejemplo, incorporando el vocabulario terminológico correspondiente". Con todo ello, esperan mejorar su fiabilidad.
Además, pretenden añadir otros a la tecnología por regla, en concreto, quieren utilizar corpus paralelos. "De este modo, si se quiere traducir una frase, primero observará si la misma ya está traducida o si hay algo parecido. Si hay algo anterior, se partirá de ahí para traducir. En cambio, si no hay nada similar, utilizará tecnología de regla".
Además de mejorar y complementar, quieren crear un traductor automático para traducir del euskera al castellano. Gracias a ello, los externos tendrían la oportunidad de conocer lo que se crea en euskera. Otro de los objetivos a futuro es poder traducir del inglés al euskera.
Para dar estos avances, Arantzazu espera contar con el apoyo del Gobierno Vasco. De hecho, hace unos años el Gobierno Vasco encargó a una empresa catalana el desarrollo de un prototipo de traducción automática. Ahora, OpenTrad es el sistema más avanzado del Estado. Por eso dice Arantzazu: "queremos convencer al Gobierno Vasco para impulsar nuestro sistema. Creemos que al menos no se puede quedar fuera".
· http://www.opentrad.net
· http://apertium.sourceforge.net
· http://matxin.sourceforge.net