“Makinak pertsonei ulertzeko gai badira, aurrerapauso handi bat egin dugu. Gure mundura datoz makinak”
2017/03/01 Agirre Ruiz de Arkaute, Aitziber - Elhuyar Zientzia Iturria: Elhuyar aldizkaria
Batez ere, egindako lanaren aitortza. Gure ikerketak interesa piztu duen seinale da, eta horrek ikertzen jarraitzera animatzen gaitu. Eta sariak diru apur bat ere ematen du, pertsona bat kontratatzeko adina.
Itzultzaile automatikoak erabiltzen ditugunean, askotan konturatzen gara zein gaizki ulertu duten. Adibidez, “Trenes mañana y tarde” itzultzeko garaian, “Trenak goiz eta arratsaldez” itzuli beharrean, “Trenak bihar eta berandu” egin dezake. Zergatik? Askotan izaten da ez duelako ulertu zertaz ari garen. Badaude hitz batzuk esanahi bat baino gehiago izan ditzaketenak, eta makinak ez daki kasu horretan zein aukeratu.
Berez, nire ikerketa-lerroa hori da, hizkuntzaren prozesamendua, eta, horren barruan, semantika edo esanahiarekin zerikusia du, semantika konputazionalarekin. Horretarako, hitzen esanahiak espazio batean irudikatzen ditugu, mapa batean bezala. Hizkuntza desberdinetako hitzak jartzen ditugu; gure kasuan, ingelesa, euskara eta gaztelania, eta, mapa horretan, haien esanahiei dagozkien puntuak ditugu markatuak. Adibidez, hitz bat dugu: “banco”, “aurrezki-kutxa” esanahia duena maparen puntu batean, baina badugu “aulki” esanahia duena ere, beste puntu batean. Berdin “mañana” hitza, “goiza” zein “bihar” izan daitekeena. Guk mapa hori ondo egiten badugu, gero, makina testu bat ulertzen hasten denean, kokatu ahal izango du ea “banco” hori esertzekoa ala dirua ateratzekoa ote den.
Puntuen arteko distantziak aztertzen ditu. Mapan edozein esaldi jartzeko gai bada, distantziekin joka dezake hitzaren esanahia kasu horretan zein den jakiteko. Hitzaren testuinguruak argituko dio hori: esaldiko beste hitzen arabera jakingo du “banco” zein hitzetatik gertu dagoen bere mapan, “kutxa” edo “aulki” hitzetik. Adibidez, makinari galdetzen badiogu: “Zein da kaudimen handiena duen bankua?”. “Kaudimen” hitzak adierazten dio “aurrezki-kutxa” esan nahi duela.
Espero genuen urte honetan aurrerapauso garrantzitsuak ematea kontzeptuak mapan irudikatzeko orduan. Eta aurreratu dugu, baina oraindik ez dugu lortu guztiz frogatzea lortzen ditugun mapa horiek hobeak direnik hitzenak baino. Baina beste gauza batean izan ditugu hobekuntzak: orain, bi hizkuntzatarako mapa independenteak hartu, eta bi mapa horiek batean elkartzeko gai gara. Hau da, euskararako mapa oso on bat egin dezakegu, beste bat gaztelaniarako eta beste bat ingeleserako, eta, gero, hirurak espazio berean jarri. Horretan emaitza onak izan ditugu; orain mapa hobeak egiten ditugu.
Bada, mapa horretan esaldiak ere jarri nahi ditugu, ez hitzak bakarrik. Hor dago erronka. Hau da, esaldi bat ondo itzultzeko, makinak esaldia ondo ulertu behar du. Hori da gizakiok egiten duguna, azken finean. Guk ez dugu hitzez hitz, modu literalean, itzultzen. Lehendabizi, ulertu egin behar dugu zeri buruz ari den, testuingurua, eta gero ulertzen dugu esaldiaren muina. Makinari kontrakoa gertatzen zaio: hitzez hitz gai da puskak ulertzeko, baina, gero, asko kostatzen zaio ulertzen dituen puska horiek elkartzea. Orduan, oraingo erronka bat da esaldi osoen esanahia mapan jartzea. Edozein esaldi jasota, sistemak jakingo luke mapan non dagoen, eta horren arabera ulertuko luke.
Esanahi literalez gain bigarren zentzuak ere sartu nahi badituzu mapan, posible da. Makinak berak ikasten ditu askotan bigarren zentzuko esanahiak. Harrigarria da, baina, mapa horretan, berezko esanahiaz gainera, konnotazioak ere lantzen ditu. Adibidez, testu asko eta asko aztertu ondoren, ikasten du medikuak gehienetan gizonezkoak direla. Edo, Estatu Batuetan, ikasten du lapurrak askotan beltzak direla. Topikoak ere ikasten ditu.
Erronka intelektual ikaragarria dago: makinak pertsonei ulertzeko gai badira, aurrerapauso handi bat egin dugu. Gure mundura datoz makinak, ezta? Haiek guri ulertzea oso erakargarria da. Helburua da makina guztiek adimen handiagoa izatea gurekin elkarrekintza dutenean, jakin dezaten esnatzen zarenean argia piztea nahi duzula, edo irratia piztea…
Gizakiok dugun ezagutza makinek ulertzeko moduan jartzea erronka handia da. Noski, arrazoi praktiko bat ere badago: itzulpen automatikoaren munduak milioika eta milioika euro mugitzen ditu urtero Europan.
Egia esan, bada erronka nagusietako bat. Askotan, industriak duen interesagatik nabaritzen da hori, eta, gaur egun, softwarearen erraldoi guztiak —Microsoft, Google, Facebook, IBM— buru-belarri ari dira lanean hizkuntzaren prozesamenduan. Nik uste hurrengo aurrerapauso handi bat hemendik etorriko dela.
Beste erronka handi bat ere badago: irudiak ulertzea. Esaterako, argazki bat aterako bazenu gu gauden bezala, makinak eszena ikusita uler dezala bi pertsona daudela, mahai bat dagoela, zure atzean erloju bat dagoela… Jada ulertzen dituzte gauza batzuk. Eszena batzuekin nahiko ondo moldatzen dira. Baina beste eszena batzuetan, guztiz galduta daude.
Baliagarria izan daiteke, adibidez, domotikan. Sistema bat baldin baduzu etxean lagundu zaitzan, bi modu dauzka etxean zer gertatzen ari den jakiteko: ahotsa da bat, eta kamera da bestea. Zu aritu beharrean esaten “orain hau nahi dut; orain bestea nahi dut”, baldin badago kamera bat zuri begira, eta zer gertatzen ari den baldin badaki, jakingo du zer egin behar duen ere: argia itzali, argia piztu, iratzargailua zure ordez itzali lehenago jaiki baldin bazara… Zu zertan ari zaren ikusita, jakin dezake zer egin behar duen.
Horrek jada ematen dizkio makinari gero eta ahalmen gehiago. Kontua ez da bakarrik hitz egitea, baizik eta ikusten duena ulertzea. Gero eta gertuago gaude. Pertsonok elkar ulertzen dugu, gauza bera ikusten ari garenez horri buruz hitz egiten dugulako. Baliabide garrantzitsua da makinentzat ere.
Erabilera kezkagarriagoak ere badaude: orain, kamera asko dago kalean, prebentziorako. Norbait zerbait arraroa egiten ari ote den begiratzen dute. Inork begiratu beharrik gabe, makinak piztuko luke alarma automatikoki.
Garai batean esaten zen hizkuntza bat atzean geratuko zela ez bazituen hiztegi bat eta gramatika bat atzean. Gaur egun, egoera antzekoa da: orain, hiztegi horiek eta gramatika horiek makinentzat behar ditugu.
Gaur egun, mugikorrentzat badugu euskara aukera gisa. Baina Googlek Androiden eta haren sistemen barnean euskara sartu badu, euskararako baliabide batzuk badaudelako da. Hiztegi horiek beharrezkoak dira analisi sintaktikoa edo morfologikoa egin ahal izateko. Hizkuntza batek ez badu baliabiderik, ez baditu hiztegi eta gramatika elektronikoak, atzean geratzeko arriskua du. Konpainia handiek ez dute hartuko baliabide horiek sortzeko lana.
Gure ikerketa-taldean, IXA taldean, 25 urte daramatzagu lanean, eta, hasiera-hasieratik, motibazioaren zati bat hori zen: hizkuntza-prozesamenduan aurrera egitea, euskarak baliabideak izan zitzan, bazterrean ez gelditzeko eta hizkuntza handiekin batera aurrera egiteko.
Une honetan, euskararen kasuan, egoera nahiko ona da. Badaude hizkuntza-zerrenda batzuk, haietako bakoitzak zer baliabide dituen zehazten dutenak, eta euskara lehendabizikoen artean dago.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia