Euskarazko adimen artifizialerako eredu neuronal berria aurkeztu du Oraik
2024/09/12 Elhuyar Zientzia Iturria: Elhuyar aldizkaria
Euskara idatzia ulertzea eta sortzea eskatzen duten adimen artifizialeko sistemetarako eredu neuronal libre berriena garatu du Oraik, Elhuyarreko adimen artifizialeko ikerketa-languneak. Llama-eus-8B izena du, eta hainbat tresna garatzeko erabiliko da: txatbotak, itzultzaile automatikoak, zuzentzaile gramatikalak, bilatzaileak, edukiak sortzeko sistemak...
Oraiko ikertzaileek baieztatu dutenez, eredu fundazional arinen esparruan (10 mila milioi parametro baino gutxiagokoak) euskararako dagoen eredurik aurreratuena da hau. Gainera, arlo akademikoan zein industrialean euskarazko teknologien garapena eta ikerketa errazteko asmoz, Llama-eus-8B modu librean eskuratzeko moduan jarri dute, baita haren garapenari eta ebaluazioari buruzko azalpen teknikoa ere.
Zehaztu dutenez, Llama-eus-8B garatzeko, Meta-ren Llama3.1-8B eredu berriena erabili dute oinarrizko eredu gisa (8 mila milioi parametroko kode irekiko eredua da). Hizkuntza-eredu neuronal hori ikasketa automatikoko algoritmoen bidez sortu da, testu-bilduma handi bat erabiliz (15 bilioi hitz), gehienak ingelesez, eta oso eraginkorra da hizkuntza horretan (eta beste hizkuntza nagusi batzuetan), hizkuntza-gaitasunak eskatzen dituzten atazak automatizatzeko (itzulpen automatikoa, laburpen automatikoa, edukien sorkuntza, elkarrizketa-sistemak…). Hala ere, euskarazko errendimendua oso mugatua da.
Euskarazko testu-bilduma erraldoirik ez dagoenez eta euskararako halako eredu bat hutsetik entrenatzeko beharrezkoak diren eskakizun konputazionalak oso handiak direnez, Llama3.1-8B-tik abiatzea erabaki dute, oinarri sendoa baitu. Helburua ingelesezko milioika testutatik ikasitako gaitasunak euskarara transferitzea izan da, ikasketa automatikoko algoritmoen bidez eta euskarazko testu-bilduma bat erabiliz.
Horretarako, Oraik duela hilabete batzuk bildutako ZelaiHandi corpusa erabili dute; alegia, lizentzia librea duen eta kalitate handikoa den euskarazko edukia soilik biltzen duen euskarazko corpusik handiena. Ingelesaren eta euskararen arteko gaitasunen transferentzia hobetzeko, ZelaiHandiko testuak ingelesezko testuekin konbinatu dira. Hala, ereduak ingelesezko ezagutza mantentzea lortu dute, eta, aldi berean, euskararen ulermena hobetzea, jatorrizko entrenamenduan ingeleserako ikasitakoa eraginkortasunez berrerabiliz”. Ereduaren entrenamendua Donostia International Physics Centerreko (DIPC) superkonputazio-zentroko Hyperion sistema erabiliz egin dute.
Eredua euskarazko 11 ataza kontuan hartzen dituen proba-banku zabal batean ebaluatu dute, zeinetan hizkuntza-gaitasun formalak (gramatika eta hiztegia zuzen erabiltzea) eta funtzionalak (hizkuntza testuinguru errealetan ulertzeko eta erabiltzeko gaitasuna) erabili baitituzte: eskola-azterketak, arazoen ebazpena, hainbat gairi buruzko galdeketak, iritzi-azterketa eta abar.
Ebaluazioaren emaitzek erakusten dutenez, Llama-eus-8B da gaur egun eskuragarri dauden euskarazko eredu fundazional arinen artean emaitza hoberenak ematen dituena (10 mila milioi parametrotik beherakoetan), eta, hala, baliabide baliotsua da euskarazko hizkuntza-gaitasunak behar dituzten adimen artifizialeko sistemak garatzeko. Zenbait atazatan, askoz handiagoak diren ereduak baino emaitza lehiakorragoak ematen ditu. Nolanahi ere, emaitzak ingeleseko emaitzetatik gero eta hurbilago dauden arren, euskarazko errendimendua ingelesekoa baino askoz txikiagoa da oraindik ere.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia