Mycroft.eus: Altaveu intel·ligent en basc
2023/03/03 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria
Els altaveus intel·ligents estan augmentant considerablement a les nostres cases. Aquests dispositius que obeeixen i responen a les nostres ordres verbals, però no ho fan en basca. Per això, en Orai, centre de treball d'Elhuyar en intel·ligència artificial i tecnologies del llenguatge i de la parla, en col·laboració amb les cooperatives Talaios i Skura, abordem el projecte Mycroft.eus. La nostra intenció era desenvolupar un altaveu intel·ligent, amb característiques diferents a les que fan els gegants tecnològics: euskalduna, de programari lliure, que protegeix la privacitat, que té una visió del que són els serveis locals…
Els altaveus intel·ligents Tiro d'Amazon i Nest (abans Home) de Google, per exemple, poden ser de gran ajuda per a posar música sense moure's del lloc en el qual estem i parlant sol parlant, preguntar pel temps, posar alarmes i recordatoris… Lamentablement, una vegada més, els gegants tecnològics tampoc han tingut en compte el basc en aquests aparells i ens obliguen a fer-ho en castellà o en francès en la nostra pròpia casa, inclosos els nostres nens, que són molt aficionats des de molt petits.
Projecte Mycroft.eus
No obstant això, en l'espai de treball Orai, creat per Elhuyar per a la recerca en tecnologies del llenguatge, disposem de les tecnologies necessàries perquè un altaveu intel·ligent es desenvolupi en basc, des de fa uns anys s'han desenvolupat les tecnologies ASR (Automatic Speech Recognition) de coneixement de llenguatge i TTS (Text To Speech) de síntesi de llenguatge. I hi ha projectes d'altaveus intel·ligents en programari lliure que cadascun pot adaptar lliurement, amb les modificacions i ampliacions necessàries. Probablement el més conegut i avançat és Mycroft.ai.
Amb tots els fonaments disponibles, abordem el projecte de desenvolupament d'un altaveu intel·ligent en basc en 2020, en col·laboració amb dues cooperatives amb àmplia experiència treballant amb programari i maquinari lliure: Talaios i Skura. Mycroft.eus és un projecte del qual he tingut l'honor i el plaer de ser responsable. Mycroft.eus ha estat secundat pels programes Construint el Futur de la Diputació Foral de Guipúscoa, Hazitek del Govern Basc i ELG o European Language Grid de la Comissió Europea, on va ser un dels 10 seleccionats entre més de 100 projectes presentats, l'únic de l'Estat Espanyol.
El projecte Mycroft.eus pretenia, per tant, construir un altaveu intel·ligent en basc, basat en Mycroft.ai, que utilitzés les tecnologies ASR i TTS en basca d'Orai. Però també li vam donar altres característiques que són importants i que no tenen dispositius similars en el mercat, d'una banda, el programari lliure, per un altre, els dispositius que vetllaran per la privacitat, per un altre, l'enfocament de les mateixes i, finalment, els serveis locals o pròxims.
Realitzats en projecte
En l'actualitat, després d'un llarg període de treball en el projecte, es pot afirmar que la fase de desenvolupament del programari està finalitzada. Hem traduït al basc el nucli de Mycroft (missatges, frases, textos...), el seu mòdul lingüístic (que interpreta i diu números, hores, dates, etc.), adaptant les tecnologies d'ASR i TTS en basca d'Orai (creació de plugins) i traduint més de 40 de les seves skill o habilitats (volum, hores, hores, hores de recordatori, hores, hores de memòria, etc.).
Quant a altres característiques, també es pot dir que s'ha complert l'objectiu. El fet de ser de programari lliure s'ha complert necessàriament, ja que és el propi Mycroft sobre el qual s'assenteixi, i els desenvolupaments realitzats estan pujats al repositori de Mycroft per al seu ús o millora per qualsevol persona. Quant a la vigilància de la privacitat, Mycroft detecta en el propi dispositiu l'ordre d'activació (“Hey, Mycroft!”) sense necessitat d'enviar res a cap servidor; per als comandos posteriors no guardem els àudios i frases enviats als servidors ASR i TTS d'Orai ni, per descomptat, fem negoci d'ells. En relació amb l'enfocament de veu, l'informe I’d blush if I could de la Unesco assenyala que els altaveus comercials reforcen i propaguen els biaixos de negoci (dispositius al nostre servei i per a satisfer les nostres demandes que inclouen nom femení, personalitat i veu, i fins i tot responen cortesament a preguntes agressives, incloses les abusives i d'assetjament sexual) i recomana mesures que van des de la veu no defectuosa fins a la veu. En el cas de Mycroft, malgrat ser un nom fictici que no s'utilitza habitualment, es diu home (Mycroft és el germà clar de Sherlock Holmes), una personalitat neutra que no respon summament a l'assetjament o abús. A més, nosaltres hem posat veu masculina per defecte, i estem realitzant diferents recerques per a sintetitzar una veu neutra sense gènere. Finalment, pel que fa a la dimensió local, hem desenvolupat mig centenar de noves habilitats perquè les notícies siguin de webs basques, per a escoltar emissores locals, per a escoltar música basca, per a preguntar en quin poble s'acosten les festes…
A més, en el projecte s'han realitzat diverses adaptacions i millores a les tecnologies ASR i TTS en basca. Per exemple, hem millorat el coneixedor perquè funcioni millor amb àudios de mala qualitat o amb so o música de fons (és a dir, amb els quals podem trobar en el cas d'un altaveu que hi ha a casa) i hem desenvolupat una tecnologia de síntesi neuronal, molt més natural (gairebé inseparable dels sons reals de les persones).
I ara què?
Per tant, una vegada finalitzat el desenvolupament del programari en Mycroft.eus, quin és l'estat actual del projecte? Està tot acabat? Doncs no. El projecte tenia i pretén posar a la disposició de la societat basca un altaveu intel·ligent en basc, resolent també el tema del maquinari, és a dir, integrant-lo en un dispositiu, distribuint-lo i posant-lo a la venda. I aquest tema és molt més complex per a nosaltres, ja que tenim experiència en tecnologies del llenguatge i desenvolupament de programari, però menys en maquinari.
Mycroft, en basc, està disposat a instal·lar-se en un ordinador amb micròfon i altaveu i sistema operatiu Linux, o en un dispositiu especialment preparat per a això, per exemple, un dispositiu basat en un Raspberry Pi al qual fèiem referència en l'article de setembre de l'any passat. Nosaltres hem estat parlant d'un Kit AIY Voice de Google, que també està preparat per a ell (un Raspberry Pi amb micròfon i altaveu incorporat per Google, que està en una caixa de cartó, perquè la gent faci desenvolupaments i hacks usant el seu ASR i TTS, molt utilitzat per la comunitat Mycroft). Però no està a l'abast de tot el món fer una instal·lació d'aquest tipus i, en el cas d'un ordinador normal, tampoc és pràctic.
I més fàcil i adequat que el disseny i producció d'un maquinari diferenciat per nosaltres mateixos, és integrar-lo en el dispositiu que comercialitza la pròpia empresa Mycroft.ai. Però els problemes derivats de COVID-19 en la producció de dispositius digitals (escassetat de xip, encariment de preus, etc.) també han afectat a ells. Han retardat diversos anys la posada en el mercat del dispositiu i no han pogut fer-lo pel preu que els hagués agradat o hagués agradat...
Fa poc més d'un any, els desenvolupadors van poder comprar el primer prototip del dispositiu, el Mark II DevKit. A l'interior d'una carcassa de metacrilat portava una Raspberry Pi, una placa, un altaveu, un micròfon, una pantalla, una càmera, llums i botons. Comprant un d'ells, preparem i testem perquè Mycroft en basc funcionés correctament. I fa uns mesos, per fi, van treure l'aparell definitiu, el Mark II, i comprem un per a integrar i provar el basc. Per a poder funcionar en aquesta última, s'han fet molts canvis en el programari i, perquè funcioni també en basc, hem de fer algunes adaptacions als desenvolupaments que teníem realitzats fins ara i en això estem.
D'altra banda, volem canviar el nom i l'ordre de despertar del dispositiu i posar una cosa més natural i senzill de pronunciar als bascos. A més, des del grup dels tres primers desenvolupadors volem estendre el desenvolupament a la comunitat basca de desenvolupadors i a les empreses basques, per a desenvolupar més habilitats conjuntes i donar un impuls al caràcter local i fer més atractiu el dispositiu.
Finalment, més enllà de l'altaveu intel·ligent, estem treballant en la transferència d'assistents virtuals mitjançant la parla a altres entorns, com a telèfons mòbils. I també estem començant a desenvolupar aplicacions orientades a la indústria.
Mycroft.eus és un projecte bonic, ambiciós i necessari. Hem desenvolupat un altaveu intel·ligent en basc i a veure si estem aviat en condicions de comercialitzar el dispositiu. Però, a més, s'ha aprofundit en les tecnologies del coneixement i la síntesi de la parla en basca, s'ha iniciat la col·laboració entre Orai, Skura i Talaios, que continuarà sent prometedora en el futur, i s'han obert nous camins en les interfícies de parla.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia