La grandària importa: grans col·leccions de textos, necessàries en el processament del llenguatge
2009/11/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria
El processament del llenguatge existeix gairebé des de la creació d'ordinadors. Les primeres màquines electròniques programables creades en els anys 40 del segle passat, a causa de la Segona Guerra Mundial, es van utilitzar principalment per a desxifrar els missatges i trencar els codis, però, després de la guerra, va començar a treballar molt en el processament del llenguatge, sobretot en el camp de la traducció automàtica.
En aquells inicis, sobretot els matemàtics, utilitzaven tècniques molt senzilles, influïdes pels costums de la criptografia: bàsicament pretenien obtenir la traducció automàtica a través dels diccionaris i les modificacions de l'ordre de paraules. Però aviat es van adonar que les llengües eren més que això, i que calia utilitzar models lingüístics més complexos. Així, es van anar incorporant lingüistes als grups i aplicant les teories de Saussure i Chomsky. Des de llavors, i al llarg de dècades, en tots els àmbits del processament del llenguatge (morfologia, correcció ortogràfica, sintaxi, desambiguació de significats...) ha predominat una aproximació: l'adaptació del coneixement basat en la intuïció dels lingüistes a estructures senzilles que poden ser tractades pels ordinadors (regles, arbres, grafs, llenguatges de programació...).
Però aquests mètodes també tenen les seves limitacions. D'una banda, els millors lingüistes tampoc poden tenir en compte tota la casuística que ofereix una llengua; per un altre, les llengües tenen una gran complexitat i riquesa per a expressar-se mitjançant estructures simples. Aquestes limitacions són encara majors en el llenguatge conversacional. No obstant això, no hi havia un altre camí; tenint en compte la capacitat de les màquines de l'època, aquesta era l'única manera de parlar amb el llenguatge. I amb aquestes tècniques el progrés ha estat relativament lent durant molts anys.
Arribada de corpus i estadística
No obstant això, en les dues últimes dècades, un acostament més empíric està dominant el processament del llenguatge, basat en l'explotació de grans col·leccions de textos i en mètodes estadístics. En lloc de basar-se en el coneixement intuïtiu, s'utilitzen grans mostres lingüístiques reals, és a dir, corpus, per a tenir en compte el major nombre de casos possibles de la llengua. I sobre ells s'utilitzen mètodes com l'estadística o l'aprenentatge automàtic, amb poques tècniques lingüístiques. Fins i tot en aquells casos en els quals s'intenta modelizar la llengua mitjançant estructures computables, extreuen els models automàticament dels corpus. Per això, treballant amb mètodes estadístics, perquè una màquina pugui parlar, ha de tenir accés a una enorme col·lecció de textos i a recursos per a treballar amb ella.
Aquest canvi metodològic es deu principalment a dos factors. D'una banda, els ordinadors actuals, a diferència dels anteriors, tenen la capacitat de manejar quantitats ingents de dades. D'altra banda, hi ha més textos disponibles en format electrònic que mai, sobretot des de la creació d'Internet.
Així, s'utilitzen corpus i tècniques estadístiques en els correctors ortogràfics (buscant contextos similars a la paraula incorrecta en corpus), en la traducció automàtica (utilitzant memòries de traducció o textos de llocs web multilingües per a obtenir estadísticament traduccions de paraules, sintagmes o frases el més grans possible), en la desambiguació de sentits, en l'extracció terminològica automàtica, etc. I en general es pot dir que com més grans són els corpus, millors resultats obtenen els sistemes. Per exemple, Franz Joseph Och de Google va presentar en el congrés de l'ACL (Association for Computational Linguistics) de 2005 el seu sistema de traducció automàtica estadística, entrenat sobre un corpus de 200.000 milions de paraules. I des de llavors el seu sistema és la principal referència en la traducció automàtica i la que guanya tots els concursos. Alguna cosa semblança ocorre en altres àmbits.
Futur, hibridació
No obstant això, aquesta metodologia també té limitacions. En algunes llengües i tasques ja s'utilitzen corpus realment gegantescos, i es pot dir que ja han aconseguit la cota superior, ja que són molt difícils de continuar millorant molt més els resultats obtinguts. En altres llengües i àmbits no existeix un corpus tan gran, i amb mètodes exclusivament estadístics no es poden obtenir resultats tan bons.
Per això, la tendència recent a millorar els mètodes estadístics és combinar-los amb les tècniques lingüístiques i crear mètodes híbrids. I en el futur aquesta serà la via per a avançar en el processament del llenguatge. Si volem que les màquines comprenguin i tractin el llenguatge en breu, i volem que les màquines parlin, serà necessari que els matemàtics, informàtics i lingüistes vagin de la mà.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia