BerbaTek: tecnoloxías lingüísticas en eúscaro en marcha
2012/02/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria
Si nos últimos tres anos fixeches o seguimento deste apartado "Mundo dixital", estarás convencido de que as tecnoloxías lingüísticas serán cada vez máis importantes no mundo dos dispositivos móbiles e sempre conectados. Falámosvos de tecnoloxías como a web semántica e as tecnoloxías semánticas, a tradución automática e os corpus, os sistemas de resposta a preguntas, os axentes de diálogo, os buscadores intelixentes... que teñen una presenza significativa e crecente neste novo mundo. Estas tecnoloxías aínda teñen camiño por percorrer, pero nalgúns casos están tan avanzadas como para que sexan útiles e moitos dispositivos e servizos están integrados, como vos contamos aquí.
Con todo, en xeral, son só paira as linguas máis estendidas (a miúdo só en inglés); as grandes compañías non están interesadas en introducir o eúscaro nelas. E aínda que o tivesen, non están dispostos a asumir o custo de adaptar esas tecnoloxías ao eúscaro. Esta adaptación ao eúscaro non é una tarefa meramente laboral; ás veces é necesario realizar una investigación básica, desenvolver recursos básicos...
Así estivemos traballando a Fundación Elhuyar, os grupos de investigación IXA e Aholkularitza da UPV, e o centro tecnolóxico Vicomtech-IK4 e Tecnalia, dentro do proxecto BerbaTek, entre 2009 e 2011, na investigación de tecnoloxías lingüísticas, de voz e multimedia paira o eúscaro (principalmente). Os departamentos de Industria e Cultura do Goberno Vasco han financiado parte do orzamento do proxecto BerbaTek a través do programa Etortek.
Non é a primeira vez que estas 5 organizacións colaboramos na investigación de tecnoloxías lingüísticas. Anteriormente estivemos a traballar no proxecto Hizking XXI no período 2002-2004 e no proxecto AnHitz no período 2006-2008. Ao final deste último, construímos una demo de experto virtual en ciencia, tamén chamado AnHitz, un avatar 3D con interacción oral capaz de responder a preguntas científicas e realizar procuras multilingües.
No proxecto BerbaTek realizamos una gran investigación básica: desenvolvemos ou mellorado moitos recursos e ferramentas básicas (corpus de texto ou voz, léxicos, dicionarios, ontologías, gramáticas computacionales, analizadores morfosintácticos, recoñecemento de voz, síntese de voz, sistemas de diálogo...), e traballamos en diferentes tecnoloxías (tradución automática, procura de información, extracción de información, sistemas de axuda á escritura, sistemas de resposta, arning, sistemas de resposta e resposta.......... As tecnoloxías desenvolvidas no mesmo utilizáronse en diferentes proxectos e servizos.
Ao servizo da industria das linguas
Aínda que o proxecto BerbaTek é un proxecto de investigación, o uso práctico desta investigación foi desde o principio uno dos principais obxectivos paira nós. E quixemos dar esa practicidad no ámbito da industria das linguas.
Enténdese por industria lingüística a composta por tres subsectores: tradución (traducións, localizacións, interpretación, dobraxe...), contidos (editoriais, medios de comunicación...) e ensino (ensino de idiomas, ensino regulado...). No País Vasco, recentemente iniciáronse os primeiros pasos paira estruturar o sector da industria das linguas: En 2010 creouse a Asociación de Empresas do País Vasco da Industria das Linguas Langune, con máis de 30 socios. Desde a súa creación, os membros de BerbaTek participaron activamente e BerbaTek ten vocación de servir de soporte tecnolóxico á industria e á asociación.
Moitas das tecnoloxías desenvolvidas en BerbaTek teñen una aplicación directa nun dos tres sectores da industria das linguas, e outras ferramentas, recursos e tecnoloxías son de aplicación en calquera deles ou son as bases paira o desenvolvemento doutras tecnoloxías.
O esquema representa gráficamente a industria das linguas e as súas áreas, e que pode achegar BerbaTek a cada una e en xeral.
Demos
Como xa se comentou, BerbaTek ten vocación de ser una aplicación práctica na industria das linguas, e proba diso é que paira os tres subsectores desta industria construímos una demo combinando diferentes tecnoloxías.
Como proba da contribución das tecnoloxías lingüísticas no campo dos contidos, realizamos un buscador semántico multimedia de ciencia e tecnoloxía. Este buscador baséase na ontología especializada WNTerm en ciencia e tecnoloxía, construída por Elhuyar e o Grupo IXA (una rede semánticamente relacionada con conceptos de ciencia e tecnoloxía, con subclases, sinónimos, etc.) e sobre o contido de Elhuyar (imaxes e textos da revista Elhuyar, vídeo do programa de televisión Teknopolis e audio de Norteko Ferrokarrilla). Mediante a tecnoloxía desenvolvida por Tecnalia, cando se busca un termo, a ontología permite tamén buscar contidos que conteñan sinónimos, subclases ou superclases deste termo. Ademais, cando o resultado é una imaxe, ofrece imaxes similares utilizando a tecnoloxía de Vicomtech-IK4.
No ámbito da tradución realizouse una demo de dobraxe automática de documentais. A duplicación automática de películas é un reto difícil de momento (moitas voces, linguaxe coloquial, velocidades diferentes...), pero con algúns tipos de documentais (un só relator, voz en off, coordinación cos beizos non é necesaria ou importante...) fixemos una demo que funciona ben. Mediante a emisión dun documental en castelán e una transcrición do que alí se di (esta transcrición pode obterse automaticamente se se quere, xa que existen no mercado programas de ditado paira o castelán), a tecnoloxía de aliñamento temporal de Vicomtech-IK4 permite obter un ficheiro de subtítulos (a transcrición, pero cos momentos inicial e final de cada frase). Posteriormente, o tradutor automático Matxin do Grupo IXA traduce estes subtítulos ao eúscaro, e a tecnoloxía de conversión de voz de texto de Zapore Jai xera una voz sincronizada en eúscaro. Este demo aplicouse con éxito aos apartados dun só relator do programa Teknopolis que realiza Elhuyar.
Por último, realizamos o demo dun titor persoal do ensino de idiomas paira o ámbito do ensino. Este titor é un personaxe 3D capaz de expresar emocións, desenvolvido por Vicomtech-IK4, que fala en eúscaro e entende o que se lle di en eúscaro, grazas á tecnoloxía de Zapore Jai. E o titor pode axudarnos en: A tecnoloxía de IXA permítenos realizar exercicios gramaticales (verbos, declinación...) ou exercicios de comprensión (encher os ocos dun texto dando varias opcións) creados automaticamente; avalíanos a pronuncia grazas á tecnoloxía de Aholab; ou ofrece axudas paira a escritura (comportamento dos verbos, escritura dos números, consultas de dicionario...), A través da tecnoloxía de IXA e Elhuyar.
Divulgación
No proxecto BerbaTek damos importancia, ademais da investigación básica e a aplicación práctica, á divulgación. Paira nós é fundamental dar a coñecer o traballo realizado en foros de investigación, congresos e revistas especializadas, pero tamén mostrar á sociedade en xeral a importancia das tecnoloxías lingüísticas e de voz e dar a coñecer os logros que realizamos neste campo paira o eúscaro. Paira lograr este último obxectivo habemos elaborado una páxina web ( http://www.berbatek.com ) na que ademais de informar de forma xeral sobre o proxecto BerbaTek, informamos periodicamente dos avances realizados no mesmo. E ademais, a través do Observatorio de Tecnoloxías Lingüísticas, Vocais e Multimedia (Un Buscador de noticias doutras webs), damos a coñecer o que ocorre no mundo das tecnoloxías lingüísticas, así como os eventos máis importantes a nivel local e internacional a través do Calendario de Eventos.
Estamos moi satisfeitos e orgullosos dos resultados obtidos por BerbaTek no proxecto. Pero se o eúscaro non quere quedar atrás nas tecnoloxías lingüísticas e, por tanto, nese novo mundo dixital, aínda nos toca traballar duro nos próximos anos. Todos os membros do proxecto BerbaTek estamos dispostos a afrontar este reto.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia