}

Tecnologías de la Lengua e Industrias de la Lengua

2009/06/01 Sagarna, Andoni - Ingeniaria Iturria: Elhuyar aldizkaria

La informática es el tratamiento automático de la información. Inicialmente se limitaba a realizar cálculos numéricos, pero poco a poco se ha ido tratando otro tipo de información: música, imagen, etc. Pronto, en la década de 1950, comenzó a procesar las lenguas humanas en esa evolución. A los 50 años de aquel inicio, tras un camino empinado, las aplicaciones basadas en el procesamiento de la lengua están llegando a la madurez y al mercado, y algunas industrias que las trabajan están tomando fuerza.
Tecnologías de la Lengua e Industrias de la Lengua
01/06/2009 | Sagarna Izagirre, Andoni | -
(Foto: Bram Janssens/350RF)

Sería bueno que un vasco que no sabe japonés y un japonés que no sabe euskera, por ejemplo, pudiese tener una conversación telefónica en tiempo real, hablando en su propia lengua y escuchando lo que el otro dice en su propia lengua. Eso, claro, es un sueño en la actualidad, pero podemos decir que estamos dando pequeños pasos hacia ello.

Es mucho más sencillo traducir textos escritos de una lengua a otra, pero tampoco es fácil hacerlo. Temas específicos (manuales de aparatos, predicciones meteorológicas, etc.) Los sistemas automáticos que tratan a parejas lingüísticas concretas son los que obtienen los mejores resultados sin grandes correcciones humanas.

Sin embargo, la situación de la traducción automática ha cambiado mucho en los últimos años, entre otras cosas porque hay muchas traducciones que se han realizado en soporte digital. La traducción automática se basaba en reglas gramaticales, pero ahora se pueden utilizar métodos estadísticos basados en grandes bases de datos. Estas bases de datos contienen textos originales y sus traducciones, formando corpus paralelos. El sistema de traducción conoce las relaciones entre los textos y es capaz de traducirlos cuando se le presenta un texto similar o igual. A medida que existen grandes corpus paralelos, este sistema obtiene buenos resultados.

La tendencia actual es la de combinar métodos regionales y estadísticos.

En un nivel más bajo, las denominadas memorias de traducción resultan de gran ayuda en la actualidad. Se trata de bases de datos que contienen los episodios que han sido traducidos anteriormente. Cuando el Traductor Humano está trabajando y el sistema comprueba que un apartado a traducir o muy similar está ya traducido, presenta al Traductor algunos equivalentes a dicho apartado y éste decide si alguno de ellos es válido o puede ser utilizado con alguna modificación. Estos sistemas son muy beneficiosos ya que ayudan a conseguir rapidez y consistencia.

Para ayudar en la elaboración de textos monolingües existen diferentes herramientas: correctores ortográficos que captan errores ortográficos, correctores gramaticales que comprueban que las frases son ajustadas a la gramática, buscadores que ayudan a encontrar información en los documentos, herramientas que hacen un resumen automático de los documentos, explicaciones lingüísticas a partir de datos no lingüísticos como los datos meteorológicos.

Entre nosotros son muy conocidos los programas informáticos de interpretación de textos impresos recibidos a través de escáner (OCR). Otra cosa es interpretar los manuscritos, que es mucho más travieso.

Cuando la lengua oral está presente, la comprensión de la lengua oral y la creación de la lengua oral tienen una dificultad muy diferente. Hoy en día son muy habituales los sistemas que "leen" en voz alta textos escritos --por ejemplo, los que permiten escuchar lo que dicen los textos escritos a los invidentes -, pero hacer lo contrario, interpretar automáticamente un sistema lo que un ser humano dice oralmente, y convertirlo en texto escrito, por ejemplo, es mucho más difícil.

Todas estas aplicaciones van poco a poco de los laboratorios al mercado. No en todas las lenguas, desgraciadamente. Y es que hay que hacer grandes inversiones en investigación y las lenguas que no ofrecen grandes posibilidades para recuperarlas están retrocediendo. No hay duda de que el inglés sigue siendo el idioma mayoritario en este ámbito, ya que es el que más se relaciona con los intereses económicos.

Las tecnologías lingüísticas están entrando mucho en los servicios de salud. En el ámbito sanitario, hasta la fecha, la información clínica se ha conservado en grandes masas de texto no estructuradas. La tecnología lingüística permite a los profesionales de la salud ahorrar mucho tiempo y aumentar la seguridad. La información clínica que hasta ahora se redactaba en texto libre se sustituye por una descripción estandarizada de los diagnósticos, tratamientos y fármacos mediante sistemas específicos.

La tecnología lingüística también está siendo introducida en otros sectores como el de automoción, aviación y organizaciones internacionales. En estos sectores, como consecuencia de la globalización, deben crear documentación escrita en muchas lenguas y formar al personal multicultural y plurilingüe.

Para ello, son imprescindibles la traducción automática, el software de extracción y gestión de terminología, los correctores ortográficos, la gestión de documentación multilingüe, etc., para ahorrar tiempo y garantizar la consistencia de los resultados.

Sagarna Izagirre, Andoni
Servicios
254
2009
Seguridad
031
Tecnología
Análisis
Servicios

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia