Qué escuchar, escribir
2008/03/01 Kortabitarte Egiguren, Irati - Elhuyar Zientzia Iturria: Elhuyar aldizkaria
Estos sistemas se integran por el momento principalmente en servicios telefónicos como cita previa, solicitud de productos, solicitud de reserva para espectáculos, etc. Pero hay otros como el dictado automático. En esta última se está trabajando, entre otros, en el departamento de Ingeniería de Sistemas y Automática de la UPV/EHU.
El tratamiento del habla requiere mucha y buena formación. Es decir, el sistema debe recibir cierto entrenamiento, lo que se conoce como aprendizaje máquina. Para ello se necesitan, por un lado, ficheros, audios y sonidos de televisión y radio, y por otro, textos de referencia de lo dicho en esos medios de comunicación. Investigadores de la UPV, por ejemplo, utilizan con frecuencia los programas Gaur Egun y Teleberri de ETB para formar el sistema. No es necesario saber qué se ha dicho literalmente, pero sí que es capaz de recoger un resumen de lo dicho. En definitiva, trata de comprender la relación entre sonidos y palabras.
Una vez finalizado el proceso de aprendizaje, el sistema debería ser capaz de entender lo dicho en cualquier Gaur Egun o Teleberri. Aunque el aprendizaje es un proceso lento, una vez que el sistema tiene las normas o la información interiorizada, es decir, tiene el material de referencia adecuado, muestra el resultado con cierta rapidez. En este caso, texto escrito de lo hablado. En definitiva, el objetivo es obtener texto de un audio o sonido.
Pequeño grande
Es cierto que la mayoría de este tipo de aplicaciones que se pueden encontrar en el mercado tienen como objetivo los “grandes” idiomas, sobre todo el inglés. Sin embargo, investigadores de la Escuela Universitaria Politécnica de Donostia-San Sebastián, en colaboración con los grupos IXA, GTTS e Inteligencia Computacional de la UPV/EHU, trabajan con el euskera. La diferencia evidente entre estas lenguas 'grandes' y 'pequeñas' radica en el número de datos de referencia. Este tipo de herramientas inglesas tienen una gran cantidad de datos, mientras que el material de referencia en euskera es bastante menor. Por ello, los investigadores están buscando nuevas técnicas para aprovechar mejor y con mayor precisión estos pocos datos.
Estos sistemas dependen totalmente de la lengua y cada lengua tiene su propia herramienta. Pero, por ejemplo, los investigadores de la UPV/EHU trabajan no sólo con el euskera, sino también con el castellano y el francés. El programa Teleberri o las sesiones de Infozazpi, por ejemplo, tienen dos objetivos principales: por un lado, quieren comprender el castellano y el francés --junto con el euskera-, y por otro, buscar en este tipo de sistemas las similitudes existentes entre el euskera y las otras dos lenguas para poder mejorar la capacitación de las herramientas en euskera.
En este sentido, en la actualidad se están realizando una serie de ensayos que analizan la posibilidad de utilizar varios idiomas en una misma herramienta. Este es el reto de futuro de los investigadores de la UPV: desarrollar un sistema capaz de entender el euskera, el castellano y el francés.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia