“Zaila da makinentzako eredu etiko unibertsal bat sortzea”
2022/06/01 Agirre Ruiz de Arkaute, Aitziber - Elhuyar Zientzia Iturria: Elhuyar aldizkaria
Bai, badute. Adimen artifizialaren alorrean badaude bi diziplina, oso konplexuak izanik ere indar handia hartu dutenak: batetik, ikusmena –irudien errekonozimendua eta prozesamendua–; eta, bestetik, hizkuntza naturalaren prozesamendua. Algoritmo oso konplexuak behar dira gizakion burmuinak modu naturalean egiten duen prozesu hori makinetan automatizatzeko. Adibidez: itzulpen automatikoa, galdera-erantzun sistemak, testuak laburbiltzeko sistemak, zuzentzaile gramatikalak… Baina gero eta emaitza hobeak lortzen ari gara.
Bai, baina ez da hori bakarrik. Azken finean, munduan sortzen den informazio gehiena gure hizkuntzan kodetuta dago. Gizakion hizkuntzan eta modu digitalean dago big data hori. Beraz, iturri hori da emankorrena edozein informazio eskuratzeko. Digitalizatuta daukagun informazioari zukua ateratzeko eta askotariko analisiak egiteko, beharrezkoa da hizkuntza naturalaren prozesamendua. Horrela aterako diogu etekina informazio horri.
Bai, hala da. Makinek gizakion hizkuntza ikas dezaten, gizakiok sortutako testuekin entrenatzen dira: albisteak, nobelak... Testu horietan gure portaerak ikusten dira; gure gizarte arrazista eta baztertzailearen isla dira. Beraz, makinek portaera baztertzaileak ikasten dituzte.
Itzulpen automatikoan, adibidez, lanbideetan ikusten da oso argi: askotan, ingeniariak zuzenean gizonezkotzat jotzen ditu, eta erizainak emakumetzat. Berdin gertatzen da gutxiengo erlijiosoekin: sinonimoak edo erlazio semantikoak ateratzen zituen sistema batek, adibidez, islama terrorismoarekin lotzen zuen batzuetan. Googlek ere argazkietan objektuak detektatzeko zerbitzu bat garatu zuen, eta, kasu batzuetan, pertsona beltzak gorila gisa sailkatzen zituen.
Berez, alborapena edo jarrera baztertzaileak entrenamenduko testuetatik datoz, eta horiek “garbitu” egin behar ditugu. Kontua da gutxiengo asko eta gatazka etiko asko daudela, batzuetan elkarrekin gurutzatzen direnak. Ez da bideragarria milioika testu garbitu eta corpus etiko unibertsal bat sortzea, inongo arazo sozialetan alborapenik ez duena. Etikoki zaila da, ez bakarrik teknologikoki.
Sor daitezke eredu etikoak arreta jarrita arazo jakin batean, eta horretan ari gara. Baina makinek ikasteko sortzen ditugun algoritmoek ere anplifikatu egin dezakete testuek berez dakarten alborapena. Bi faktoreak hartu behar dira kontuan.
Orain, batez ere hizkuntza-eredu neuronalak erabiltzen dira makinek hizkuntza naturala ikas dezaten, eta hizkuntza-eredu neuronal horietan hizkuntzaren hainbat abstrakzio-maila bereizten saiatzen dira: morfologikoa, sintaktikoa, semantikoa eta pragmatikoa. Eta azken horretan sartzen dira emozioak. Sei kategoriako eskala bat proposatu da emozioak detektatzeko: haserre, pozik, triste... Gertatzen dena da ahozko hizkuntzan keinuak eta intonazioa ere hartu behar direla kontuan emozioak detektatzeko. Beraz, irudi-prozesamendua ere behar da. Hiru diziplina uztartzen dituen arkitektura neuronala behar da: irudien errekonozimendua, hizketaren teknologia eta hizkuntzaren ulermena. Horretan ikertzen ari dira jada.
Zailagoa da ironia detektatzea. Horretarako, osoari eta testuinguru globalari erreparatu beharko lieke sistemak, “munduaren ezagutza” deritzogun horri. Txisteak ulertzeko, makinak erreferentzia kultural batzuk ikasi behar ditu aurrez. Munduaren ezagutza hori dena sare neuronaletan integratzea oso konplexua da. Ez dago sare neuronal bat txiste onak sortzen dituena, adibidez. Baina iritsiko da hori ere.
Adibidez, garatu dugun Elia itzultzaile automatikoak, esaldi bat itzuli nahi dugunean, esaldi bat hartu eta beste hizkuntza batean nola esaten den iragarri behar du. Bi aldagai ditu, beraz: sarrerakoa eta irteerakoa. Sarrerakoa izan daiteke hitz bat, eta hori nola itzuli iragarri behar dute neurona batzuek. Neurona horiek bit-ekin funtzionatzen dute: zenbaki bat jasotzen dute sarreran, eta zenbaki bat ematen dute irteeran. Hizkuntza binarioan, 0 edo 1.
Bai, formula bat. Balio batzuk dituzu sarreran, eta, irteerako balioa eman dezan, sarrerako balioak konbinatzen dira. Baina sarrerako hitz bakoitzeko, neurona pila bat behar dira elkarrekin konektatuta. Eta, hizkuntza konplexua denez, milioika neurona behar dira azkenean, milioika formula matematiko, elkarrekin konektatuta. Neurona biologikoak bezala. Hortik dator sare neuronalen izena. Arkitektura neuronal horiek geruzaka antola daitezke. Nolabait, lehenengo geruzan ikasten da morfologia; bigarrenean, sintaxia; hirugarrenean, semantika…
Eta emaitza hobeak emateko, formula horiek doitzen joan behar dugu. Baina nola doitzen dituzu milioi bat formula? Eskuz ezin da egin. Optimizazio-algoritmoak erabiltzen ditugu, modu automatikoan esploratu eta entrenamenduan emaitza onenak ematen dituzten parametroak topatu arte.
Eboluzio luzea izan du. Hasieran, hizkuntzaren arauetan oinarritutako metodologiak erabiltzen ziren: “Esaldi batean hitz hau posizio honetan azaltzen bada, eta ondoan izenondo bat badu…”. Baina hizkuntza konplexua da, eta arau gehiegi dago; beraz, emaitzak ez ziren onak. Orduan, pentsatu zuten egokiena eredu estatistikoak izango zirela. Emaitzak zertxobait hobetu ziren. 2010ean hitzen ezaugarri linguistikoak hobeto errepresentatzeko teknika bat proposatu zuen Mikolov-ek, Googleko ikertzaile batek. Eta sare neuronal sakonak erabiltzen hasi ziren.
Baina, 2017an eta 2018an, berrikuntza bana proposatu zuten Googleko beste ikertzaile batzuek hizkuntzaren konplexutasuna hobeto ikasteko. Berrikuntza horiek gaurko paradigma finkatu dute: hizkuntza baten ezagutza hizkuntza-eredu neuronal erraldoi batean biltzen da, eta eredu neuronal hori hizkuntzaren prozesamenduko ataza zehatzak egiteko egokitu daiteke. Hizkuntza-teknologien booma ekarri du horrek.
Bai, muga handia da. Proiektu bat lantzen ari gara HiTZ zentroarekin eta Vicomtech-ekin, euskarak inoiz izan duen datu-baserik handiena lortzeko. 400 milioi hitzeko corpusa lortu dugu. Ingelesean, milaka milioi maneiatzen dituzte.
Argi dago hizkuntza baten bizitasun digitala indartzeko garrantzitsuena edukiak sortzea dela. Baina, gero, hizkuntza horretan interakzioa sortzeko tresna digitalak behar ditugu: itzultzaile automatikoak, azpititulazio automatikoa, albisteen gomendioak… Edukiak kontsumitzeko, beharrezkoak dira hizkuntza-teknologiak.
Komunikazioa guztiz eraldatu du digitalizazioak. Une honetan, Errusiako kazetari batek idatzitako txioa zure hizkuntzan irakur dezakezu. Baina, horretarako, euskarri teknologikoa behar dute hizkuntzek. Bestela, jokoz kanpo geratuko dira epe laburrean. Beraz, bai, garrantzitsua da hizkuntza-politikek estrategia digital argi bat izatea. Euskarak, ordea, ez du estrategia oso argirik.
Nire ustez, ezinbestekoa da gure hizkuntzaren biziraupenerako kritikoak diren teknologietan burujabe izatea. Batez ere, lerro estrategikoak markatu ahal izateko eta inoren menpe ez egoteko. Googlek eskaintzen ditu zerbitzuk batzuk –itzultzaileak, bilatzaileak, transkripzio-sistemak…–, eta askotan entzuten dut jendea, beldurrez: “Googlek ez baditu euskararen bertsioak ateratzen, kanpoan geratuko gara!”. Baina, agian, garrantzitsuena ez da Googlek egitea, baizik eta guk geuk eskuratzea hori egiteko jakintza. Hain zuzen, jakintza hori izatea da burujabe izatea. Horrek emango digu gaitasuna edozein egoerari aurre egiteko, korporazio handien menpe egon gabe.
Berrikuntza gehienak Googleko ikertzaileek egindakoak izan dira, baina denon eskura jarri dituzte algoritmoak eta bestelako baliabideak. Euskal Herrian etekin handia atera diegu baliabide horiei. Hiru talde ari gara: HiTZ zentroa, Vicomtech eta Orai NLP Teknologiak. Beraz, baditugu burujabetza teknologikoa lortzeko osagaiak. Baina finantzazio publiko sendoa behar da, merkatuak ez baitu inoiz ahula salbatuko.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia