El tamaño importa: grandes colecciones de textos, necesarias en el procesamiento del lenguaje
2009/11/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria
El procesamiento del lenguaje existe casi desde la creación de ordenadores. Las primeras máquinas electrónicas programables creadas en los años 40 del siglo pasado, debido a la Segunda Guerra Mundial, se utilizaron principalmente para descifrar los mensajes y romper los códigos, pero, tras la guerra, comenzó a trabajar mucho en el procesamiento del lenguaje, sobre todo en el campo de la traducción automática.
En aquellos inicios, sobre todo los matemáticos, utilizaban técnicas muy sencillas, influidas por las costumbres de la criptografía: básicamente pretendían obtener la traducción automática a través de los diccionarios y las modificaciones del orden de palabras. Pero pronto se dieron cuenta de que las lenguas eran más que eso, y que había que utilizar modelos lingüísticos más complejos. Así, se fueron incorporando lingüistas a los grupos y aplicando las teorías de Saussure y Chomsky. Desde entonces, y a lo largo de décadas, en todos los ámbitos del procesamiento del lenguaje (morfología, corrección ortográfica, sintaxis, desambiguación de significados...) ha predominado una aproximación: la adaptación del conocimiento basado en la intuición de los lingüistas a estructuras sencillas que pueden ser tratadas por los ordenadores (reglas, árboles, grafos, lenguajes de programación...).
Pero estos métodos también tienen sus limitaciones. Por un lado, los mejores lingüistas tampoco pueden tener en cuenta toda la casuística que ofrece una lengua; por otro, las lenguas tienen una gran complejidad y riqueza para expresarse mediante estructuras simples. Estas limitaciones son aún mayores en el lenguaje conversacional. Sin embargo, no había otro camino; teniendo en cuenta la capacidad de las máquinas de la época, ésta era la única manera de hablar con el lenguaje. Y con estas técnicas el progreso ha sido relativamente lento durante muchos años.
Llegada de corpus y estadística
Sin embargo, en las dos últimas décadas, un acercamiento más empírico está dominando el procesamiento del lenguaje, basado en la explotación de grandes colecciones de textos y en métodos estadísticos. En lugar de basarse en el conocimiento intuitivo, se utilizan grandes muestras lingüísticas reales, es decir, corpus, para tener en cuenta el mayor número de casos posibles de la lengua. Y sobre ellos se utilizan métodos como la estadística o el aprendizaje automático, con pocas técnicas lingüísticas. Incluso en aquellos casos en los que se intenta modelizar la lengua mediante estructuras computables, extraen los modelos automáticamente de los corpus. Por eso, trabajando con métodos estadísticos, para que una máquina pueda hablar, debe tener acceso a una enorme colección de textos y a recursos para trabajar con ella.
Este cambio metodológico se debe principalmente a dos factores. Por un lado, los ordenadores actuales, a diferencia de los anteriores, tienen la capacidad de manejar cantidades ingentes de datos. Por otro lado, hay más textos disponibles en formato electrónico que nunca, sobre todo desde la creación de Internet.
Así, se utilizan corpus y técnicas estadísticas en los correctores ortográficos (buscando contextos similares a la palabra incorrecta en corpus), en la traducción automática (utilizando memorias de traducción o textos de sitios web multilingües para obtener estadísticamente traducciones de palabras, sintagmas o frases lo más grandes posible), en la desambiguación de sentidos, en la extracción terminológica automática, etc. Y en general se puede decir que cuanto más grandes son los corpus, mejores resultados obtienen los sistemas. Por ejemplo, Franz Joseph Och de Google presentó en el congreso de la ACL (Association for Computational Linguistics) de 2005 su sistema de traducción automática estadística, entrenado sobre un corpus de 200.000 millones de palabras. Y desde entonces su sistema es la principal referencia en la traducción automática y la que gana todos los concursos. Algo parecido ocurre en otros ámbitos.
Futuro, hibridación
Sin embargo, esta metodología también tiene limitaciones. En algunas lenguas y tareas ya se utilizan corpus realmente gigantescos, y se puede decir que ya han alcanzado la cota superior, ya que son muy difíciles de seguir mejorando mucho más los resultados obtenidos. En otras lenguas y ámbitos no existe un corpus tan grande, y con métodos exclusivamente estadísticos no se pueden obtener resultados tan buenos.
Por ello, la tendencia reciente a mejorar los métodos estadísticos es combinarlos con las técnicas lingüísticas y crear métodos híbridos. Y en el futuro esa será la vía para avanzar en el procesamiento del lenguaje. Si queremos que las máquinas comprendan y traten el lenguaje en breve, y queremos que las máquinas hablen, será necesario que los matemáticos, informáticos y lingüistas vayan de la mano.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia