Opentrad, enfront de la Torre de Babel
2006/04/01 Galarraga Aiestaran, Ana - Elhuyar Zientzia Iturria: Elhuyar aldizkaria
El Periódico de Catalunya es publica diàriament en dos idiomes: castellà i català. Per a això, no tenen el doble d'empleats o no dediquen el doble d'hores al treball que altres periòdics. El seu secret és un traductor automàtic. Els periodistes escriuen el periòdic en castellà i, a continuació, el traductor automàtic el col·loca en català. Dirigeixen el text entre diversos correctors i està disposat a sortir al carrer juntament amb el de castellà.
El Periódico de Catalunya és un exemple significatiu de la posada en valor dels traductors automàtics. A més, el traductor que té el periòdic no és l'únic traductor del castellà al català, sinó molts altres exemples. Per exemple, la Universitat d'Alacant va crear interNOSTRUM per a la Caixa d'Estalvis del Mediterrani. La traducció es realitza en dues adreces i ara permet a qualsevol persona usar-la gratuïtament en la web del mateix nom. Això sí, admet textos de fins a 16.384 caràcters.
A més, en l'estat espanyol hi ha un traductor automàtic de gallec a castellà, però és un producte molt tancat i limitat. I en basc, què? Fins ara poc. El grup IXA de la Facultat d'Informàtica de la UPV/EHU estava desenvolupant un sistema automàtic de traducció de l'anglès al basc, però no avançaven tan ràpid com volien.
Aquesta era la situació fa dos o tres anys. No obstant això, en 2004 es va posar en marxa el projecte de desenvolupament de l'Opentrad. De fet, els investigadors que van desenvolupar interNOSTRUM eren coneguts per la IXA, i Eleka Enginyeria Lingüística i IXA treballen junts. Es van unir a treballs similars a Galícia i van començar a crear un traductor automàtic de codi obert gràcies a la subvenció del Ministeri d'Indústria, Turisme i Comerç.
Segons Eleka, Iñaki Arantzabal va definir des del principi objectius a dos nivells: "d'una banda, volíem aconseguir un bon traductor automàtic, ràpid i de codi obert per a les parelles galego-espanyol i catalano-espanyol i, per un altre, un prototip per a traduir del castellà al basc. Cal tenir en compte que el punt de partida de totes les llengües no era el mateix: la parella castellà-català estava bastant avançada i, en l'altre extrem, per a traduir automàticament del castellà al basc, gairebé tot estava per fer".
Pròxims per superfície
En això, lògicament, influeix molt la diferència entre les llengües. És evident que el castellà, el gallec i el català es troben molt més a prop entre sí que de qualsevol d'ells. En conseqüència, és molt més fàcil aconseguir un bon sistema de traducció entre les llengües romàniques que quan el basc està present.
Per això, Opentrad compta amb dos motors de traducció automàtica, un per a traduccions entre llengües romàniques, Apertium, i un altre per a traduir del castellà al basc, Matxin.
Ambdues es basen en les regles del llenguatge. Existeixen diverses formes de traducció automàtica, però les principals són les que es basen en col·leccions de textos prèviament traduïts, és a dir, corpus, i les basades en regles lingüístiques --ordre de paraules en la frase, declinació, verbs...--.
Iñaki Alegría, d'IXA, ha explicat que "els sistemes basats en regles lingüístiques treballen en tres fases. Primer realitzen una anàlisi sintàctica-morfològica del text original, després realitzen una transferència a l'altre idioma i, finalment, creen el text en aquesta segona llengua".
Per a la traducció entre llengües romàniques, encara que la transferència és superficial, s'obtenen bons resultats. Això és el que fa InterNOSTRUM i d'aquí han partit per a desenvolupar el motor Apertium. En certa manera, Apertium interNOSTRUM és una versió millorada en codi obert.
Això és el que han guanyat sobretot els catalans, que el codi sigui obert. A més, Opentrad té el codi totalment separat dels recursos lingüístics. Gràcies a això, el sistema ofereix totes les facilitats per a la interacció i l'adaptació a les necessitats de l'usuari. El sistema està disposat a assumir tots els canvis que es vulguin realitzar per a enriquir i millorar.
Apertium no sols realitza la transferència sintàctica. A més, té diversos 'filtres' per a afinar la traducció. Per exemple, és capaç de detectar estructures pròpies d'una llengua i donar-los el seu equivalent en l'altra. En conseqüència, s'aconsegueix una traducció de major qualitat. Per exemple, el traductor del duo espanyol-català té una fiabilitat del 95%, és a dir, només cinc de cada cent paraules traduïdes són errònies.
Llunyans en profunditat
No obstant això, Apertium no serveix per a traduir del castellà al basc. Les llengües són tan diferents que la transferència sintàctica superficial no és suficient. L'estructura de les frases també canvia radicalment, per la qual cosa es necessita un motor d'anàlisi sintàctica-morfològica profund capaç de construir un arbre de dependències, realitzar una transferència i produir el text en basc. Per a això han creat Matxin.
La IXA ha reconegut que per a desenvolupar Matxin han hagut de fer un "dur treball", i el resultat no és tan bo com el que ofereix Apertium en la traducció entre les llengües romàniques. En qualsevol cas, han aconseguit l'objectiu marcat inicialment, ja que es tractava de crear infraestructura.
D'altra banda, la qualitat de la traducció en el desenvolupament del traductor automàtic ha estat una de les principals preocupacions, però també s'ha ocupat de la velocitat del sistema. En aquest sentit, han reconegut la seva satisfacció. Això permet recórrer les pàgines web en l'idioma traduït. Segons un exemple d'Arantzabal, sent l'original el castellà, existeix la possibilitat de navegar en gipuzkoa.net en català i gallec a través d'Opentrad.Mirant cap endavant
Fins al moment, s'ha aconseguit un bon i ràpid sistema automàtic que tradueix en tots dos sentits per a les parelles galego-espanyol i catalano-espanyol, així com un prototip per a traduir del castellà al basc. En paraules del responsable d'Eleka, "hem aconseguit l'objectiu".
Però no tenen intenció de quedar-se aquí. "Volem continuar millorant i completant. Una manera de millorar els resultats és centrar-se en àmbits concrets. En cada àmbit s'utilitza un llenguatge propi, amb menys problemes d'ambigüitat que actuant en general. Per tant, la qualitat augmenta adaptant al traductor a un camp, per exemple, incorporant el vocabulari terminològic corresponent". Amb tot això, esperen millorar la seva fiabilitat.
A més, pretenen afegir uns altres a la tecnologia per regla, en concret, volen utilitzar corpus paral·lels. "D'aquesta manera, si es vol traduir una frase, primer observarà si la mateixa ja està traduïda o si hi ha una cosa semblant. Si hi ha una cosa anterior, es partirà d'aquí per a traduir. En canvi, si no hi ha res similar, utilitzarà tecnologia de regla".
A més de millorar i complementar, volen crear un traductor automàtic per a traduir del basc al castellà. Gràcies a això, els externs tindrien l'oportunitat de conèixer el que es crea en basca. Un altre dels objectius a futur és poder traduir de l'anglès al basc.
Per a donar aquests avanços, Arantzazu espera comptar amb el suport del Govern Basc. De fet, fa uns anys el Govern Basc va encarregar a una empresa catalana el desenvolupament d'un prototip de traducció automàtica. Ara, Opentrad és el sistema més avançat de l'Estat. Per això diu Arantzazu: "volem convèncer al Govern Basc per a impulsar el nostre sistema. Creiem que almenys no es pot quedar fora".
· http://www.opentrad.net
· http://apertium.sourceforge.net
· http://matxin.sourceforge.net