Zer entzun, hura idatzi
2008/03/01 Kortabitarte Egiguren, Irati - Elhuyar Zientzia Iturria: Elhuyar aldizkaria
Sistema horiek batez ere telefono bidezko zerbitzuetan integratzen dira oraingoz: aurretiko hitzordua, produktu-eskaerak, ikuskizunetarako erreserba-eskea eta abar. Baina badaude bestelakoak ere: diktaketa automatikoa, adibidez. Azken horretan dihardute lanean, hain zuzen ere, EHUko Sistemen Ingeniaritza eta Automatika sailean, besteak beste.
Hizketaren tratamendua egiteko sistema asko eta ongi trebatu behar da. Alegia, sistemak nolabaiteko entrenamendua jaso behar du, makina-ikasketa deritzona. Horretarako, batetik, telebista nahiz irratietako fitxategiak, audioak nahiz soinuak behar dira; eta bestetik, komunikabide horietan esan denaren erreferentziazko testuak. EHUko ikertzaileek, adibidez, ETBko Gaur Egun eta Teleberri programak erabiltzen dituzte maiz, sistema trebatzeko. Ez da beharrezkoa hitzez hitz zer esan den jakitea; bai, ordea, esandakoaren laburpen bat jasotzeko gai izatea sistema. Azken finean, soinu eta hitzen arteko erlazioa ulertzen saiatzen da.
Ikasketa-prozesua amaitu ostean, edozein Gaur Egun -etan edo Teleberri -tan esandakoa ulertzeko gai behar luke izan sistemak. Ikastea prozesu motela izan arren, sistemak behin arauak edo informazioa barneratuta dituenean, hau da, erreferentziazko material egokia duenean, nahiko azkar erakusten du emaitza. Kasu honetan, ahoz esandakoaren testu idatzia. Azken finean, helburua da audio edo soinu batetik testua lortzea.
Txikia handi
Egia da merkatuan aurki daitezkeen horrelako aplikazio gehienek hizkuntza 'handiak' dituztela helburu; ingelesa, batik bat. Dena den, Donostiako Unibertsitate Eskola Politeknikoko ikertzaileek, EHUko IXA, GTTS eta Adimen Konputazionala taldeekin elkarlanean, euskararekin dihardute lanean. Hizkuntza 'handi' eta 'txiki' horien arteko ageriko ezberdintasun nagusia erreferentziazko datu-kopuruan datza. Mota horretako ingelesezko tresnek ikaragarrizko datu piloa izaten dute; euskarazkoen erreferentziazko materiala, berriz, dezente txikiagoa da. Horregatik, datu gutxi horiek hobeto eta zehaztasun handiagoz aprobetxatzeko teknika berriak bilatzen ari dira ikertzaileak.
Sistema horiek hizkuntzaren mende daude erabat, eta hizkuntza bakoitzak bere tresna du. Baina, EHUko ikertzaileek, adibidez, euskararekin ez ezik, gaztelaniarekin eta frantsesarekin ere egiten dute lan. Teleberri programak edo Infozazpi -ko saioak aztertzen dituztenean, esaterako, bi helburu nagusi dituzte: batetik, gaztelania eta frantsesa ulertu nahi dituzte --euskararekin batera--, eta, bestetik, mota horietako sistemetan euskararen eta beste bi hizkuntza horien artean dauden antzekotasunak bilatu nahi dituzte, euskarazko tresnak hobeto trebatu ahal izateko.
Bide horretan, gaur egun, tresna berean hizkuntza bat baino gehiago erabiltzeko aukera aztertzen duten hainbat saiakuntza egiten ari dira. Horixe da, hain zuzen ere, EHUko ikertzaileen etorkizuneko erronka: euskara, gaztelania eta frantsesa ulertzeko gai izango den sistema bat garatzea.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia