OpenTrad, fronte á Torre de Babel
2006/04/01 Galarraga Aiestaran, Ana - Elhuyar Zientzia Iturria: Elhuyar aldizkaria
O Xornal de Catalunya publícase diariamente en dous idiomas: castelán e catalán. Paira iso, non teñen o dobre de empregados ou non dedican o dobre de horas ao traballo que outros xornais. O seu segredo é un tradutor automático. Os xornalistas escriben o xornal en castelán e, a continuación, o tradutor automático colócao en catalán. Dirixen o texto entre varios correctores e está disposto a saír á rúa xunto co de castelán.
O Xornal de Catalunya é un exemplo significativo da posta en valor dos tradutores automáticos. Ademais, o tradutor que ten o xornal non é o único tradutor do castelán ao catalán, senón outros moitos exemplos. Por exemplo, a Universidade de Alacante creou interNOSTRUM paira a Caixa de Aforros do Mediterráneo. A tradución realízase en dúas direccións e agora permite a calquera persoa usala gratuitamente na web do mesmo nome. Iso si, admite textos de até 16.384 caracteres.
Ademais, no estado español hai un tradutor automático de galego a castelán, pero é un produto moi pechado e limitado. E en eúscaro, que? Até agora pouco. O grupo IXA da Facultade de Informática da UPV/EHU estaba a desenvolver un sistema automático de tradución do inglés ao eúscaro, pero non avanzaban tan rápido como querían.
Esa era a situación fai dúas ou tres anos. Con todo, en 2004 púxose en marcha o proxecto de desenvolvemento da OpenTrad. De feito, os investigadores que desenvolveron interNOSTRUM eran coñecidos pola IXA, e Eleka Enxeñaría Lingüística e IXA traballan xuntos. Uníronse a traballos similares en Galicia e comezaron a crear un tradutor automático de código aberto grazas á subvención do Ministerio de Industria, Turismo e Comercio.
Segundo Eleka, Iñaki Arantzabal definiu desde o principio obxectivos a dous niveis: "por unha banda, queriamos conseguir un bo tradutor automático, rápido e de código aberto paira as parellas galego-español e catalano-español e, por outro, un prototipo paira traducir do castelán ao eúscaro. Hai que ter en conta que o punto de partida de todas as linguas non era o mesmo: o parella castelán-catalán estaba bastante avanzada e, no outro extremo, paira traducir automaticamente do castelán ao eúscaro, case todo estaba por facer".
Próximos por superficie
Niso, loxicamente, inflúe moito a diferenza entre as linguas. É evidente que o castelán, o galego e o catalán atópanse moito máis cerca entre si que de calquera deles. En consecuencia, é moito máis fácil conseguir un bo sistema de tradución entre as linguas románicas que cando o eúscaro está presente.
Por iso, OpenTrad conta con dous motores de tradución automática, un paira traducións entre linguas románicas, Apertium, e outro paira traducir do castelán ao eúscaro, Matxin.
Ambas se basean nas regras da linguaxe. Existen varias formas de tradución automática, pero as principais son as que se basean en coleccións de textos previamente traducidos, é dicir, corpus, e as baseadas en regras lingüísticas --orde de palabras na frase, declinación, verbos...--.
Iñaki Alegría, de IXA, explicou que "os sistemas baseados en regras lingüísticas traballan en tres fases. Primeiro realizan unha análise sintáctico-morfológico do texto orixinal, logo realizan una transferencia ao outro idioma e, finalmente, crean o texto nesa segunda lingua".
Paira a tradución entre linguas románicas, aínda que a transferencia é superficial, obtéñense bos resultados. Isto é o que fai InterNOSTRUM e de aí partiron paira desenvolver o motor Apertium. En certo xeito, Apertium interNOSTRUM é una versión mellorada en código aberto.
Iso é o que gañaron sobre todo os cataláns, que o código sexa aberto. Ademais, OpenTrad ten o código totalmente separado dos recursos lingüísticos. Grazas a iso, o sistema ofrece todas as facilidades paira a interacción e a adaptación ás necesidades do usuario. O sistema está disposto a asumir todos os cambios que se queiran realizar paira enriquecer e mellorar.
Apertium non só realiza a transferencia sintáctica. Ademais, ten varios 'filtros' paira afinar a tradución. Por exemplo, é capaz de detectar estruturas propias dunha lingua e darlles o seu equivalente na outra. En consecuencia, conséguese una tradución de maior calidade. Por exemplo, o tradutor do dúo español-catalán ten una fiabilidade do 95%, é dicir, só cinco de cada cen palabras traducidas son erróneas.
Afastados en profundidade
Con todo, Apertium non serve paira traducir do castelán ao eúscaro. As linguas son tan diferentes que a transferencia sintáctica superficial non é suficiente. A estrutura das frases tamén cambia radicalmente, polo que se necesita un motor de análise sintáctico-morfológico profundo capaz de construír unha árbore de dependencias, realizar una transferencia e producir o texto en eúscaro. Paira iso crearon Matxin.
A IXA recoñeceu que paira desenvolver Matxin tiveron que facer un "duro traballo", e o resultado non é tan bo como o que ofrece Apertium na tradución entre as linguas románicas. En calquera caso, conseguiron o obxectivo marcado inicialmente, xa que se trataba de crear infraestrutura.
Doutra banda, a calidade da tradución no desenvolvemento do tradutor automático foi una das principais preocupacións, pero tamén se ocupou da velocidade do sistema. Neste sentido, recoñeceron a súa satisfacción. Isto permite percorrer as páxinas web no idioma traducido. Segundo un exemplo de Arantzabal, sendo o orixinal o castelán, existe a posibilidade de navegar en gipuzkoa.net en catalán e galego a través de OpenTrad.Mirando cara adiante
Até o momento, conseguiuse un bo e rápido sistema automático que traduce en ambos os sentidos paira as parellas galego-español e catalano-español, así como un prototipo paira traducir do castelán ao eúscaro. En palabras do responsable de Eleka, "conseguimos o obxectivo".
Pero non teñen intención de quedar aí. "Queremos seguir mellorando e completando. Una forma de mellorar os resultados é centrarse en ámbitos concretos. En cada ámbito utilízase unha linguaxe propia, con menos problemas de ambigüidade que actuando en xeral. Por tanto, a calidade aumenta adaptando ao tradutor a un campo, por exemplo, incorporando o vocabulario terminolóxico correspondente". Con todo iso, esperan mellorar a súa fiabilidade.
Ademais, pretenden engadir outros á tecnoloxía por regra, en concreto, queren utilizar corpus paralelos. "Deste xeito, se se quere traducir una frase, primeiro observará se a mesma xa está traducida ou si hai algo parecido. Se hai algo anterior, partirase de aí paira traducir. En cambio, se non hai nada similar, utilizará tecnoloxía de regra".
Ademais de mellorar e complementar, queren crear un tradutor automático paira traducir do eúscaro ao castelán. Grazas a iso, os externos terían a oportunidade de coñecer o que se crea en eúscaro. Outro dos obxectivos a futuro é poder traducir do inglés ao eúscaro.
Paira dar estes avances, Arantzazu espera contar co apoio do Goberno Vasco. De feito, hai uns anos o Goberno Vasco encargou a unha empresa catalá o desenvolvemento dun prototipo de tradución automática. Agora, OpenTrad é o sistema máis avanzado do Estado. Por iso di Arantzazu: "queremos convencer ao Goberno Vasco paira impulsar o noso sistema. Creemos que polo menos non se pode quedar fóra".
· http://www.opentrad.net
· http://apertium.sourceforge.net
· http://matxin.sourceforge.net