Una mirada a l'evolució dels sistemes de traducció automàtica
2017/09/01 Cortés Etxabe, Itziar - Elhuyarreko itzulpengintza-teknologien arduraduna Iturria: Elhuyar aldizkaria
La traducció automàtica és una tecnologia coneguda. Quan naveguem per Internet ho utilitzem amb freqüència per a comprendre textos escrits en llengües estrangeres, o per què no, o com a ajuda per a traduir.
Els serveis que trobem en Internet són molt variats, la majoria gratuïts, i encara que aparentment semblen iguals, poden ser eines basades en diferents tecnologies o s'han anat adaptant al llarg del temps, i aquest canvi ha estat transparent per als usuaris. Per a posar en marxa un sistema de traducció automàtica existeixen, per tant, diverses opcions: els sistemes basats en regles (RBMT) requereixen de recursos o coneixements lingüístics; els basats en l'estadística (SMT) necessiten col·leccions de textos ja traduïts, i amb certa capacitat d'aprendre a traduir mitjançant tècniques estadístiques; i finalment, els sistemes NMT o basats en xarxes neuronals, que han estat molt coneguts en els últims temps.
Els sistemes basats en xarxes neuronals imiten el funcionament del cervell humà i sorgeixen de grans col·leccions d'informació, però són més complexos que els sistemes basats en l'estadística. Aquesta tecnologia es basa en un model matemàtic (dins del deep learning) que tracta d'imitar el funcionament de les neurones del cervell i que, malgrat haver passat diversos anys des del seu coneixement, està adquirint força. De fet, la posada en marxa d'aquesta mena de sistemes requereix, a més de grans recopilacions de dades, dispositius d'alta capacitat de computació, i amb els ordinadors i targetes gràfiques que tenim en l'actualitat s'ha aconseguit crear aquest tipus de sistemes de manera eficient.
Els sistemes de traducció automàtica han anat evolucionant al llarg del temps i Google és un exemple d'això: sense que els usuaris s'adonin, s'han anat adaptant a nous models i alguns dels traductors que usem ja estan basats en xarxes neuronals. Però no pensem que aquesta tecnologia només està en mans dels gegants d'Internet, estem investigant en aquest camp i treballem amb el basc. De moment estem realitzant experiments de recerca, però els primers resultats obtinguts són esperançadors. L'objectiu és posar en marxa en breu un sistema basat en xarxes neuronals que tradueixen al basc.
Pàgina web consumer.eus, bilingüe
Matxin (http://matxin.elhuyar.eus) és pionera a traduir del castellà al basc. Es tracta d'un sistema de traducció automàtica sorgit d'una tesi doctoral en 2007 (Aingeru Major Martínez, UPV/EHU), el primer traductor automàtic al basc, i des de llavors s'està adaptant progressivament als nous temps en una era digital tan important com les tecnologies lingüístiques. Es basa en les regles, per la qual cosa té un coneixement de recursos lingüístics que li permet traduir. En concret, té el coneixement necessari per a comprendre textos en castellà i, d'alguna manera, traduir-los al basc. Per a això utilitza diccionaris i regles sintàctiques, entre altres.
En els últims tres anys estem treballant en el projecte Consumer.eus Fundació Eroski, l'equip de recerca de la UPV Ixa i Elhuyar. Els continguts que fins ara només es podien llegir en castellà es tradueixen automàticament al basc i s'utilitza Matxin per a fer aquest treball; és un traductor sòlid, basat en programari lliure, que permet adaptar fàcilment els recursos lingüístics i, després de la seva aplicació, es percep en el mateix moment la millora dels resultats. Per a traduir els continguts de la web consumer.eus ens hem centrat en l'àmbit de l'alimentació, adaptant els recursos lingüístics que utilitza el traductor automàtic. L'efecte de les adaptacions realitzades s'ha constatat de manera immediata: l'adequació dels recursos ha anat acompanyada d'una millora de la qualitat del sistema en els textos sobre alimentació.
No obstant això, és evident que la qualitat de les traduccions generades automàticament no sempre és esperada, o almenys no és directament editable. Per això, en aquest mateix projecte s'ofereix al lector la possibilitat d'adaptar les traduccions, podent participar qualsevol persona. Consumer.eus permet corregir articles i receptes en basca i es conserva el treball realitzat. Per a què? Millorar el traductor amb les dades recollides. Amb la informació rebuda i l'aprenentatge automàtic es posarà en marxa un nou sistema de traducció automàtica especialitzat en la traducció de textos alimentaris.
Reptes de la traducció automàtica
Avançar en els sistemes de traducció automàtica és un repte enorme i el camí per a millorar la qualitat dels resultats està ple d'experiments: quan comencem a treballar amb sistemes basats en regles, el treball manual dels lingüistes era imprescindible. El lingüista havia de conèixer les llengües d'origen i de destinació del traductor i crear regles per a fer un pont interlingüïstic (a nivell morfològic i sintàctic, per exemple). Començar de zero un sistema d'aquestes característiques és, per tant, una tasca immensa. No obstant això, la creació de sistemes basats en l'estadística o l'aprenentatge automàtic no requereix necessàriament de coneixements lingüístics (almenys per a crear un model senzill).
En els últims anys escoltem amb freqüència el concepte de Big Data, que s'utilitza per a referir-nos als immensos conjunts de dades disponibles. D'ells s'extreu informació i, en el seu cas, es realitza el corresponent estudi. Les tècniques d'estudi esmentades en aquest article no s'apliquen únicament a la traducció automàtica, sinó que el concepte de Big Data s'utilitza també per a altres processos d'aprenentatge o estudi. Sembla, doncs, que és fàcil crear sistemes de traducció quan tenim dades disponibles, però en aquest cas també trobem limitacions.
La preparació de conjunts de dades per a aprenentatge automàtic o profund (machine learning, deep learning) no sol ser sovint fàcil. Hem de tenir en compte que la creació de models matemàtics requereix d'un conjunt de frases ja traduïdes: les traduccions han de ser de qualitat i el conjunt de dades ha de ser gran. En teoria, com més gran sigui el nombre de dades utilitzades per a crear el sistema, millor serà el resultat del traductor.
No obstant això, sembla que s'ha arribat al cim amb els sistemes basats en l'estadística: encara que el conjunt de dades utilitzades per a l'aprenentatge s'ampliï, el resultat del traductor no millora en la mateixa proporció. Per això estem investigant en sistemes basats en xarxes neuronals per a superar aquesta barrera i avançar en el camp de la traducció automàtica.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia