En lugar de ler, escoitar
2014/04/02 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria
Si as tecnoloxías de voz non se utilizaron até datas recentes, non é porque non houbese necesidade de ser, senón porque a tecnoloxía aínda non estaba bastante madura e avanzada. As necesidades e posibles aplicacións foron sempre numerosas.
O que primeiro nos vén á cabeza destes posibles usos é a interacción con dispositivos dixitais. En lugar de dar as ordes ao computador, teléfono ou tablet no teclado por escrito ou facendo clic co rato, pode resultar máis cómodo e rápido en moitos casos facelo de forma verbal. E paira obter o resultado da máquina, en lugar de lelo na pantalla, a miúdo pode resultar máis cómodo escoitar. Exemplos de interacción por voz son os axentes de diálogo tipo Siri que cada vez ven máis en dispositivos móbiles (dos que xa vos falamos en xaneiro de 2012).
Tamén poden colaborar na comunicación interpersoal. Combinada coa tradución automática, as tecnoloxías de voz permiten realizar tradutores de voz.
Outra aplicación é a xestión da información. Os computadores manexan de forma sinxela e rápida a información escrita e pódense facer ferramentas moi útiles como os buscadores. Con todo, cando se trata de gravacións de audio, as máquinas non son capaces de comprendelas e deben ser transcritas. Pola contra, si son capaces de comprender a fala a través das tecnoloxías de voz, as propias máquinas converterían a voz en texto e en audio
os arquivos poderíanse indexar facilmente paira a procura (por exemplo, BBC está a catalogar todos os audios da radio de toda a súa historia paira a procura) ou subtitular automaticamente as películas.
Síntese de voz
Dentro das tecnoloxías de voz, un aspecto importante é o coñecemento da voz, pero neste artigo centrarémonos na tecnoloxía en sentido contrario: a síntese de voz, tamén coñecida como TTS (Text To Speech) en inglés. Esta tecnoloxía xera o audio dun fala desde un texto, con voces sintéticas ou artificiais, na forma máis natural posible. E iso, en parte, está bastante conseguido, polo menos paira una entonación neutra. Curiosamente, os robots que aparecían en vellas películas de ciencia ficción eran máquinas moi intelixentes e non tiñan problemas paira entender o que se lles dicía, pero eles falaban dunha maneira moi artificial e robótica (por suposto). Pero en realidade sucedeu o contrario: hoxe en día as máquinas poden falar bastante ben, entender, pero non tan ben, e aínda falta moita marxe paira ser intelixentes...
Os investigadores tamén están a traballar na síntese de voz emocional, é dicir, que a voz sintética exprese emocións como o enfado, a alegría, a sorpresa ou a pena. E é que en moitos casos non basta con dicir as cousas con entonación neutra, por exemplo, si quérese duplicar o filme e o filme automaticamente.
Para que a voz sintética que se crea pareza natural, é necesario facer moitas gravacións de persoas reais, obtendo un fala coa mesma voz que esa persoa, que parece ser o que di una persoa real. Pero isto ten un problema, xa que cando se necesitan moitas voces diferentes non serve (por exemplo, paira dobrar as películas arriba mencionadas). Por iso, tamén existe a tecnoloxía da transformación das voces, é dicir, a tecnoloxía paira conseguir que una voz sintética baseada en gravacións pareza ser propiedade doutra persoa. Utilízase, por exemplo, paira elaborar sintetizadores de voz que parezan á súa voz paira persoas que perderon a capacidade de falar.
Síntese de voz en eúscaro paira escoitar a revista Elhuyar e Zientzia.net!
Xa dixemos anteriormente que as tecnoloxías de voz están bastante avanzadas na actualidade e son cada vez máis utilizadas. Con todo, estas tecnoloxías dependen do idioma (quizá coa excepción da detección do relator) e non están no mesmo nivel de desenvolvemento paira todas as linguas. Como sempre, estas tecnoloxías están moi desenvolvidas paira unhas poucas linguas (as de sempre: inglés, castelán, alemán, chinés...) e paira a maioría das demais moito máis descolgadas.
A pesar de non estar á altura destas linguas con mellor desenvolvemento, o eúscaro non é, afortunadamente, una das linguas que se atopan no último vagón. Levamos anos traballando en tecnoloxías de voz paira o eúscaro. E nese traballo temos como referente e pioneiro o grupo de investigación da UPV Aholkularitza. Todas as tecnoloxías mencionadas foron e están en fase de elaboración.
A tecnoloxía máis avanzada paira o eúscaro de Kontseilua, por suposto, é a da síntese vocal. Obteñen una voz sintética neutra de moi boa calidade e que pode ser utilizada en aplicacións. Por iso, en colaboración con Zapore Jai, a unidade de Lingua e Tecnoloxía de Elhuyar desenvolveu a tecnoloxía de escoita a través da síntese de voz en lugar de ler as páxinas web.
Porque xa non só navegamos polos computadores de sobremesa na web. Cada vez imos máis por internet desde os nosos smartphones e tablets. E nelas, as condicións de lectura das páxinas web non son moi adecuadas: é una pantalla pequena (sobre todo nos teléfonos), a miúdo imos en movemento (a pé, no tren, no autobús...), etc. Con todo, neste tipo de dispositivos estamos moi afeitos escoitar o contido (música, podcasts...) cos auriculares. Por iso, pareceunos moi interesante desenvolver esta tecnoloxía paira poder escoitar webs. En lugar de ler o contido no computador ou dispositivo móbil, o usuario poderá ir escoitalo mentres realiza outra cousa.
Polo momento, puxemos esta tecnoloxía na web da revista Elhuyar e en Zientzia.net. Estando nun contido local (un artigo, unha reportaxe...) aparécenos una barra na que aparece un botón típico en forma de “play”. Pulsando aquí, empezamos a escoitar o artigo. Escóitaa repítese e a frase que estamos a escoitar aparece marcada. Tamén hai botóns paira poder navegar en escóitaa (paira ir á frase anterior ou seguinte, ao paragráfora anterior ou á beira, ou ao lugar que queiramos). Ademais, podemos modificar a voz (entre unha muller e un home), o volume e a velocidade. Ademais, se estamos nun número da revista, pulsando o botón de escoitar, poderemos escoitar sucesivamente todos os artigos dese número, o que pode ser moi interesante si imos en coche nunha viaxe relativamente longa, xa que en lugar de escoitar a radio podemos escoitar toda a revista. Finalmente, nas entrevistas, lenos cunha voz diferente á elixida paira diferenciar preguntas, preguntas e respostas. E todo iso coa tecnoloxía estándar HTML5 (en HTML5 falámosvos en febreiro de 2010).
Una boa oportunidade paira coñecer e gozar das tecnoloxías de voz en eúscaro. Próbao e descúbreo!
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia