Que escoitar, escribir
2008/03/01 Kortabitarte Egiguren, Irati - Elhuyar Zientzia Iturria: Elhuyar aldizkaria
Estes sistemas intégranse polo momento principalmente en servizos telefónicos como cita previa, solicitude de produtos, solicitude de reserva paira espectáculos, etc. Pero hai outros como o ditado automático. Nesta última está a traballarse, entre outros, no departamento de Enxeñaría de Sistemas e Automática da UPV/EHU.
O tratamento da fala require moita e boa formación. É dicir, o sistema debe recibir certo adestramento, o que se coñece como aprendizaxe máquina. Paira iso necesítanse, por unha banda, ficheiros, audios e sons de televisión e radio, e por outro, textos de referencia do devandito neses medios de comunicación. Investigadores da UPV, por exemplo, utilizan con frecuencia os programas Gaur Egun e Teleberri de ETB paira formar o sistema. Non é necesario saber que se dixo literalmente, pero si que é capaz de recoller un resumo do devandito. En definitiva, trata de comprender a relación entre sons e palabras.
Una vez finalizado o proceso de aprendizaxe, o sistema debería ser capaz de entender o devandito en calquera Gaur Egun ou Teleberri. Aínda que a aprendizaxe é un proceso lento, una vez que o sistema ten as normas ou a información interiorizada, é dicir, ten o material de referencia adecuado, mostra o resultado con certa rapidez. Neste caso, texto escrito do falado. En definitiva, o obxectivo é obter texto dun audio ou son.
Pequeno grande
É certo que a maioría deste tipo de aplicacións que se poden atopar no mercado teñen como obxectivo os “grandes” idiomas, sobre todo o inglés. Con todo, investigadores da Escola Universitaria Politécnica de Donostia-San Sebastián, en colaboración cos grupos IXA, GTTS e Intelixencia Computacional da UPV/EHU, traballan co eúscaro. A diferenza evidente entre estas linguas 'grandes' e 'pequenas' radica no número de datos de referencia. Este tipo de ferramentas inglesas teñen una gran cantidade de datos, mentres que o material de referencia en eúscaro é bastante menor. Por iso, os investigadores están a buscar novas técnicas paira aproveitar mellor e con maior precisión estes poucos datos.
Estes sistemas dependen totalmente da lingua e cada lingua ten a súa propia ferramenta. Pero, por exemplo, os investigadores da UPV/EHU traballan non só co eúscaro, senón tamén co castelán e o francés. O programa Teleberri ou as sesións de Infozazpi, por exemplo, teñen dous obxectivos principais: por unha banda, queren comprender o castelán e o francés --xunto co eúscaro-, e por outro, buscar neste tipo de sistemas as similitudes existentes entre o eúscaro e as outras dúas linguas paira poder mellorar a capacitación das ferramentas en eúscaro.
Neste sentido, na actualidade están a realizarse una serie de ensaios que analizan a posibilidade de utilizar varios idiomas nunha mesma ferramenta. Este é o reto de futuro dos investigadores da UPV: desenvolver un sistema capaz de entender o eúscaro, o castelán e o francés.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia