}

Nova síntese neuronal de fala de Elhuyar

2023/09/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria

En 2014, Elhuyar lanzou un novo servizo tecnolóxico: a síntese da fala. Esta tecnoloxía que permite converter textos en audio foi utilizada desde entón polos nosos clientes para ofrecer diferentes servizos. As tecnoloxías lingüísticas e da fala avanzaron moito grazas á tecnoloxía das redes neuronais, e en Elhuyar desenvolvemos unha tecnoloxía neuronal propia de síntese de fala, con maior calidade e novas posibilidades. Coñezamos o novo servizo web de síntese de fala neuronal.

Ed. Jackie Niam/Shutterstoc.com

Dentro das tecnoloxías da fala predominan dúas tecnoloxías: ASR (Automatic Speech Recognition) ou coñecemento da fala, que consiste na transcrición ou conversión dun audio de fala en texto, chamado TTS (Text-To-Speech) ou síntese da fala, que consiste na lectura ou conversión dun texto en audio. Desde hai uns anos traballamos para o eúscaro no centro de intelixencia artificial Orai, creado por Elhuyar, e, en base a ambos, Elhuyar socializa os servizos en eúscaro. En canto ao ASR, no ano 2020 puxemos en marcha o servizo de transcrición, subtitulación e ditado Aditu .eus. En canto á TTS, desde 2014 existe o servizo de conversión de texto online a voz e a páxina web.

Este servizo estaba baseado na tecnoloxía Aho TTS desenvolvida polo grupo de investigación Aholab da Universidade do País Vasco, que se desenvolveu coa mellor lóxica tecno-técnica da época e era o único que funcionaba en eúscaro. Nestes anos, a tecnoloxía utilizouse en diversos lugares e casos: para permitir escoitar o contido dalgunhas webs (Elhuyar aldizkaria, Zientzia.eus, EITB.eus, Sarean .eus, o servizo para persoas con discapacidade da UPV, para que os profesores poidan compartir material e recursos desexados, a páxina web Amarauna do Departamento de Educación...), para axudar a que os alumnos e alumnas poidan expresar en eúscaro as súas palabras no dicionario dixital.

Nova tecnoloxía neuronal TTS

Desde entón, todas as tecnoloxías lingüísticas e de fala, incluído o TTS, pasaron a funcionar a través da tecnoloxía coñecida como redes neuronais profundas (deep neural networks) ou aprendizaxe profunda (deep learning), que ofrece uns resultados moito mellores. E aínda que se dicía entón que a fala que creabamos sintéticamente era bastante natural (e así era para os estándar de entón), o que hoxe se consegue coas redes neuronais é moito máis natural, desde a linguaxe case auténtica até o infinito.

Pois ben, ao longo dos últimos anos, en Orai estivemos desenvolvendo unha síntese neuronal de fala en eúscaro, e xa temos o noso propio sistema. É de moi boa calidade o que parece unha auténtico fala na pronuncia, a entonación, a prosodia... Ademais, coas tecnoloxías actuais podemos facer cousas que antes custaba máis e ter novas funcionalidades. Por exemplo, no sistema anterior, por cada voz diferente que se pretendía crear, adestrábase un modelo e necesitábanse bastantes gravacións. Hoxe en día, con todo, nun mesmo modelo podemos ter moitas máis voces e con moito menos tempo de gravación, polo que podemos crear máis facilmente novas voces sintéticas.

Ademais, pódense crear modelos multilingües que creamos en seis idiomas: eúscaro, castelán, francés, inglés, catalán e galego. A través delas pódese conseguir que as gravacións se fagan cunha persoa nun idioma determinado (digamos, euskera), pero logo o modelo adestrado con esas gravacións sexa capaz de facer unha síntese noutro idioma (digamos, ingelesa, ou francés, ou catalán) coa voz desa persoa! É dicir, podes pór a unha persoa “falando” noutra lingua, sen ter nin idea desa lingua!

Servizo Web opcional multiuso

Este ano Elhuyar puxo en marcha o servizo web baseado na nova tecnoloxía neuronal en https://ttsneuronala.elhuyar.eus/. Entre as seis linguas mencionadas e en cada unha delas podemos elixir entre dúas ou catro voces diferentes, dar un texto e convertelo nunha fala. A calidade das voces podémola comprobar a través da caixa de texto da web.

Ademais, si queremos, tamén podemos crear a nosa voz personalizada, que só nós poderemos utilizar. Para iso, basta con gravar un dez minutos lendo unhas frases e despois poderemos facer unha síntese de fala coa nosa voz no idioma gravado ou en calquera outro. Os exemplos de voces personalizadas así creadas pódense escoitar nas páxinas web da revista Elhuyar ou de Goiena (no caso de Elhuyar tamén se poden pasar a outras opcións).

Existen varias formas de utilizar a tecnoloxía. O máis sinxelo e sinxelo é a través da caixa de texto, onde pegaremos o texto desexado e crearemos audio. Tamén ofrecemos unha API que nos permite acceder á nosa aplicación ou servizo. E si en lugar de ler unha páxina web quérese dar a oportunidade de escoitala, tamén ofrecemos o código dunha barra reprodutora, que se insere facilmente na web.

Os clientes anteriores ao servizo TTS xa se han migrado a novos servizos e novas voces, e tamén se están beneficiando de novas empresas (Tokikom, Skura, Batasuna, Ulma, Ibil, Naiz...), moitas delas con voces personalizadas.

E que uso ten realmente a tecnoloxía TTS, para que están a utilizar estes clientes? Pois ten moitos usos posibles. Unha das máis habituais é facer as páxinas web máis accesibles e/ou accesibles mediante a barra reprodutora (por exemplo, camiñando no móbil ou en transporte público). A través do API, e en combinación co ASR, tamén se permite a interacción con máquinas ou apps a través da fala. Utilizando a caixa de texto podemos crear un podcast audible sen necesidade de gravalo directamente do texto, ou crear voces en off para o noso audiovisual. Nun futuro próximo, tamén será posible realizar a dobraxe (semiautomático), engadindo o TTS ao noso servizo de subtitulación e tradución automática Aditu.

Polo momento, a nosa tecnoloxía TTS crea unha fala neutra, que é suficiente para ler o contido dun medio de comunicación ou páxina web, para falar unha máquina ou para voces en off. Pero en Orai seguimos investigando en moitas direccións, para ter tamén voces emocionais, para poder parametrizar e modelar á carta a fala que se produce (velocidade de cada intervalo, entonación, bolumena...), para poder realizar unha síntese imitando unha voz cunha pequena mostra sen necesidade de adestrar modelos propios mediante gravacións... Totalmente observables, para que este tipo de ferramentas estean presentes tamén nun mundo cada vez máis tecnolóxico e tecnolóxico.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia