O tamaño importa: grandes coleccións de textos, necesarias no procesamiento da linguaxe
2009/11/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria
O procesamiento da linguaxe existe case desde a creación de computadores. As primeiras máquinas electrónicas programables creadas nos anos 40 do século pasado, debido á Segunda Guerra Mundial, utilizáronse principalmente paira descifrar as mensaxes e romper os códigos, pero, tras a guerra, comezou a traballar moito no procesamiento da linguaxe, sobre todo no campo da tradución automática.
Naqueles inicios, sobre todo os matemáticos, utilizaban técnicas moi sinxelas, influídas polos costumes da criptografía: basicamente pretendían obter a tradución automática a través dos dicionarios e as modificacións da orde de palabras. Pero pronto se deron conta de que as linguas eran máis que iso, e que había que utilizar modelos lingüísticos máis complexos. Así, fóronse incorporando lingüistas aos grupos e aplicando as teorías de Saussure e Chomsky. Desde entón, e ao longo de décadas, en todos os ámbitos do procesamiento da linguaxe (morfología, corrección ortográfica, sintaxe, desambiguación de significados...) predominou una aproximación: a adaptación do coñecemento baseado na intuición dos lingüistas a estruturas sinxelas que poden ser tratadas polos computadores (regras, árbores, grafos, linguaxes de programación...).
Pero estes métodos tamén teñen as súas limitacións. Por unha banda, os mellores lingüistas tampouco poden ter en conta toda a casuística que ofrece una lingua; por outro, as linguas teñen una gran complexidade e riqueza paira expresarse mediante estruturas simples. Estas limitacións son aínda maiores na linguaxe conversacional. Con todo, non había outro camiño; tendo en conta a capacidade das máquinas da época, esta era a única maneira de falar coa linguaxe. E con estas técnicas o progreso foi relativamente lento durante moitos anos.
Chegada de corpus e estatística
Con todo, nas dúas últimas décadas, un achegamento máis empírico está a dominar o procesamiento da linguaxe, baseado na explotación de grandes coleccións de textos e en métodos estatísticos. En lugar de basearse no coñecemento intuitivo, utilízanse grandes mostras lingüísticas reais, é dicir, corpus, paira ter en conta o maior número de casos posibles da lingua. E sobre eles utilízanse métodos como a estatística ou a aprendizaxe automática, con poucas técnicas lingüísticas. Mesmo naqueles casos nos que se tenta modelizar a lingua mediante estruturas computables, extraen os modelos automaticamente dos corpus. Por iso, traballando con métodos estatísticos, para que una máquina poida falar, debe ter acceso a unha enorme colección de textos e a recursos paira traballar con ela.
Este cambio metodológico débese principalmente a dous factores. Por unha banda, os computadores actuais, a diferenza dos anteriores, teñen a capacidade de manexar cantidades inxentes de datos. Doutra banda, hai máis textos dispoñibles en formato electrónico que nunca, sobre todo desde a creación de Internet.
Así, utilízanse corpus e técnicas estatísticas nos correctores ortográficos (buscando contextos similares á palabra incorrecta en corpus), na tradución automática (utilizando memorias de tradución ou textos de sitios web multilingües paira obter estatisticamente traducións de palabras, sintagmas ou frases o máis grandes posible), na desambiguación de sentidos, na extracción terminolóxica automática, etc. E en xeral pódese dicir que canto máis grandes son os corpus, mellores resultados obteñen os sistemas. Por exemplo, Franz Joseph Och de Google presentou no congreso do ACL (Association for Computational Linguistics) de 2005 o seu sistema de tradución automática estatística, adestrado sobre un corpus de 200.000 millóns de palabras. E desde entón o seu sistema é a principal referencia na tradución automática e a que gaña todos os concursos. Algo parecido ocorre noutros ámbitos.
Futuro, hibridación
Con todo, esta metodoloxía tamén ten limitacións. Nalgunhas linguas e tarefas xa se utilizan corpus realmente xigantescos, e pódese dicir que xa alcanzaron a cota superior, xa que son moi difíciles de seguir mellorando moito máis os resultados obtidos. Noutras linguas e ámbitos non existe un corpus tan grande, e con métodos exclusivamente estatísticos non se poden obter resultados tan bos.
Por iso, a tendencia recente a mellorar os métodos estatísticos é combinalos coas técnicas lingüísticas e crear métodos híbridos. E no futuro esa será a vía paira avanzar no procesamiento da linguaxe. Se queremos que as máquinas comprendan e traten a linguaxe en breve, e queremos que as máquinas falen, será necesario que os matemáticos, informáticos e lingüistas vaian da man.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia