CorpEus-en eta Elebila-ren teknologia euskarazko web bilaketak egiteko
2007/11/26 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia
Internet euskarazko corpus gisa kontsultatzeko tresna bat da CorpEus; eta Elebila, berriz, euskarazko bilatzaile bat.
Bi tresnek erakusten dituzten emaitzak eta eman dakiekeen erabilera ezberdinak badira ere, biek euskarazko web bilaketak egiten dituzte, eta biek teknologia bera erabiltzen dute, Elhuyar Fundazioko I+G sailean garatutako teknologia .
Euskaraz bilatzeko arazoak
Interneten euskarazko edukia bilatzeko ohiko bilatzaileetara (Google, Yahoo!, Windows Live Search...) jotzen dugunean, bi arazo ditugu, nagusiki. Lehenengoa da batek ere ez duela ematen aukerarik euskarazko orrietan soilik bilatzeko. Hala, beste hizkuntza batzuetan grafia bera duten hitzak bilatzean —hala nola energia , anorexia edo software —, apenas agertzen zaigun euskarazko emaitzarik. Gauza bera gertatzen da izen berezi askorekin —hala nola Egipto , Newton edo Guggenheim —. Eta antzera asto , katu edo esne moduko hitz labur askorekin, beste hizkuntza batzuetan existi daitezen aukera handiak baitaude, sigla gisa besterik ez bada ere.
Bigarrena da euskara hizkuntza deklinatua dela, eta ezaugarri hori ez dutela kontuan hartzen bilatzaileek. Euskarazko hitz bat bilatzean, hitzaren deklinazioak ere bilatzea komeni da; bestela, energia hitza bilatzean, energiaren kontsumoa handitu da dioen orri bat ez litzateke agertuko, adibidez.
Bilatzaileen APIak erabilita
Interneteko ohiko bilatzaileek euskararentzat emaitza onak ematen ez dituztela ikusita, bi aukera daude: bilatzaile erabat propioa garatzea edo beste bilatzaileek eskaintzen dituzten APIak erabiltzea. Lehenengoa oso konplexua da. Alde batetik, zailtasun teknikoak daude, bilatzaile nagusiak ere oraindik ikertzen ari direnak eta, ziur aski, etengabe ikertzen jarraitu beharko dutenak: rankinga, pertsonalizazioa, web spama... Bestetik, eskatzen duen hardware eta azpiegitura guztia dago: ordenagailu asko crawlinga egiten, indize erraldoiak ostatatzeko makinak, bilaketa-zerbitzua emango dutenak...
APIak erabiltzea (bilatzaileek eskaintzen dituzten interfaze edo funtzio-multzoak, horiek erabiliz nork bere aplikazio propioa gara dezan) askoz merkeagoa eta sinpleagoa da. Desabantaila batzuk ere baditu, ordea: bilatzaileekiko menpekotasuna dago, ez dago kontrolik ordenaren eta beste parametroen gainean... Hala ere, abantailak gehiago direla irudituta, APIak erabiliz garatu dira CorpEus eta Elebila.
Euskarazko emaitzak soilik
Bilatzaileetatik euskarazko emaitzak soilik lortzeko, euskaraz maizen agertzen diren hitzak gehitzen zaizkio erabiltzaileak bilatu nahi duen hitzari. Beste hizkuntzetan dauden orriek ez dituzte normalean iragazki-hitz horiek izango, eta euskaraz dauden testu gehienek izango dituzte.
Lau iragazki-hitz eransten zaizkio APIari bidaltzen zaion galderari: eta , da, ez eta ere . Lehenengoarekin soilik ez da nahikoa, ETA izena askotan agertzen baita euskara ez den beste hizkuntza batzuetan ere. Birekin ere ez, da hitzak bai esan nahi baitu hainbat hizkuntza eslaviarretan. Hirurekin ere ez, ez hitzak, laburra izaki, beste hizkuntza batzuetan ere esanahia baitu edo zerbaiten sigla baita. Beraz, lau hitzak gehituz lortzen da emaitza ia guztiak euskarazkoak izatea. Noizean behin euskaraz ez dagoen orriren bat ere itzultzen da, baina horiek iragazteko IXA Taldeak garatutako LangId hizkuntza-identifikatzailea erabiltzen da. Bilatzaileak erakusteko bidaltzen duen testu-zatitxoari aplikatzen zaio, eta euskarazkoa ez den orriren bat dagoela ikusten bada, emaitzetatik ezabatzen dute bi tresnek.
Bilaketa lematizatua
Euskarak morfologia aberatsa du: hitz baten lema batek ( ekuazio adibidez) forma asko ditu ( ekuazio bera, ekuazioa , ekuazioak , ekuazioaren , ekuazioei ...). Interneten hitz bat bilatzean, hitz horren edozein forma aurkitzea komeni da. Beraz, euskararentzat propio garatutako bilaketa-motor batek ez lituzke hitzen forma zehatzak indexatu beharko, haien lemak baizik. Baina Interneteko bilatzaileek ez dute hori egiten, eta sartutako hitz-forma zehatza soilik bilatzen dute; beraz, hitz beraren beste edozein forma duten orriak galdu egiten dira.
CorpEusek eta Elebilak sorkuntza morfologiko bidezko galderaren hedapena erabiltzen dute hori konpontzeko. IXA Taldeak egindako sorkuntza morfologikoko tresnak erabiltzen dira lema baten formak lortzeko, eta forma horietako edozein duten orriak eskatzen zaizkio APIari, OR operadore baten bitartez. Horrela lortzen dugu bilaketa lematizatua egitea.
Egia esateko, ez da lema bidezko bilaketa osoa egiten; izan ere, euskal hitzek deklinazio mordoa izan dezakete (teknikoki, infinitu deklinazio) eta bilatzaileen APIek mugak dituzte bidal dakiekeen hitz-kopuruari dagokionez. Horregatik, deklinazioak erabilera-maiztasunaren arabera ordenatzen dira, eta APIak onartu bezainbeste bidaltzen dira, kasu gehienak barne hartzeko eta ia benetako bilaketa lematizatua lortzeko.
Nabigazio-bilaketa vs. informazio-bilaketa
Euskarazko emaitzak soilik lortzeko lau iragazki-hitz erabiltzen direnez, batzuetan euskaraz dauden orriak emaitzetatik kanpo geratzen dira, hitz horietako bat edo batzuk ez dituztelako. Eta hori arazoa izan daiteke, batez ere nabigazio-bilaketetan.
Zer den hori? Interneteko bilatzaileen arloko teorikoek bi motatako bilaketak bereizten dituzte: nabigazio-bilaketak (bilaketaren bidez web gune jakin baten helbidea lortu nahi denean, hala nola Euskaltube edo Euskadiko Kutxa ) eta informazio-bilaketak (zerbaiti buruzko informazioa bilatu nahi denean, minbizia edo energia nuklearra , adibidez). CorpEus eta Elebila euskarazko EDUKIA bilatzeko diseinatuta daude batez ere, hau da, informazio-bilaketarako diseinatu dira, hor huts egiten baitute ohiko bilatzaileek. Eta informazio ona duten testuak, normalean, iragazki-hitzak izateko nahiko luzeak izaten dira, eta agertzen dira horrelako bilaketetan.
Elhuyar Fundazioko I + G taldeko kideak: ezkerretik hasita, Antton Gurrutxaga, Nerea Areta, Xabier Saralegi eta Igor Leturia.
(Argazkia: E. Carton)
Baina nabigazio-bilaketetarako, batzuetan, Elebila ez da hain ongi ibiliko, web guneetako sarrera-orriek edo orri nagusiek -hau da, horrelako bilaketetan agertzea nahi izaten dugun orriek- sarritan testu gutxi eta laburra izaten baitute, eta gerta baitaiteke testu labur horietan iragazki-hitzak ez azaltzea. Baina konponbide bat ere badago. Elebilak nabigazio-bilaketa batentzat huts egiten duenean, bi aukera ditugu: Bilaketa aurreratua -n sartu eta iragazki ahulagoarekin saiatu (hala, iragazki-hitz gutxiago erabiliko ditu eta bilatzen genuen orria agertzeko aukera gehiago izango dugu), edo Edozein hizkuntzatan bilatzeko esan (kasu horretan, bilatzaile arrunt batek egingo lukeen bilaketa egingo du; eta euskaraz dauden orrien nabigazio-bilaketetarako ere nahiko ongi funtzionatzen dute Interneteko ohiko bilatzaileek, orri batera estekatzen duten orri kopuruan oinarritutako rankinga nahikoa baita horrelako bilaketetarako).
CorpEus informazio-bilaketetarako erabiltzen da batez ere. Hala ere, kasu batzuetan gerta daiteke iragazki-hitzen erruz emaitza gutxi agertzea. Kasu horretan, hor dugu Saiatu estaldura handituz aukera, bilaketa iragazki-hitz gutxiagorekin egiteko. Aukera horrek emaitza onak izan ditzake bilatutako hitza euskarazkoa soilik bada, baina beste hizkuntza handiagoren baten grafia bera badu, euskarazkoak ez diren emaitza asko itzuliko ditu APIak, eta gero ez da ezer erakutsiko, LangId hizkuntza-identifikatzaileak ezabatu egingo baititu.
Windows Live Search APIa
CorpEus eta Elebila zerbitzuak Microsoft-en Windows Live Search bilatzailearen APIan oinarritzen dira. Aukera hori egiteko, bilatzaile nagusiek euren APIak erabiltzeko jartzen dituzten mugak aztertu ditugu: Google-ren APIak egunean 1.000 dei bakarrik onartzen ditu, eta, gainera, jada ez ditu izen-emate berriak onartzen; izan ere, API hori alde batera uzten ari da Google, AJAX Search API berria bultzatzeko (azken horrek 8 emaitza besterik ez ditu bueltatzen); Yahoo!-ren APIak egunean 10.000 dei onartzen ditu IP bakoitzetik; eta Microsoft-en APIak egunean 25.000 dei onartzen ditu doan, eta hori gainditzeko lizentzia komertzial bat ere eskaintzen du.
Baina CorpEus eta Elebila ez daude, inondik inora, Windows Live Search-ekin halabeharrez eta betiko ezkonduta. Beste API batzuk erabiltzeko ere gai dira (Google, Google AJAX, Yahoo eta Alexa). Zerbitzu publikoa Windows Live Search-ekin ematea erabaki genuen baldintzengatik, baina baldintzak edozein unetan aldatzen badira, ia berehala jar ditzakegu beste API bat erabiltzeko moduan.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia