Parlant del llenguatge de les màquines. Soles d'experts
2009/11/01 Roa Zubia, Guillermo - Elhuyar Zientzia Iturria: Elhuyar aldizkaria
Eneko Agirre: Jo crec que són qüestions relacionades amb la comprensió. La recerca duta a terme en els últims anys ha suposat un gran salt qualitatiu, però això no significa que la màquina ens "entengui" ara. Jo crec que s'han fet petits passos i les màquines comprenen coses en cada vegada més zones. Què és un lloc, per exemple. Amb els cognoms sempre hi ha problema, Azpeitia és una persona o un lloc? O una empresa? Començar a comprendre aquestes coses és un pas endavant. I encara que a les persones els sembli molt senzill, sense context són difícils. Per tant, el repte és ensenyar a la màquina fragments d'aquesta mena de coneixements.
De fet, els mètodes matemàtics i estadístics basats en corpus estan tocant d'alguna manera, estan fent el que podien fer i tenen dificultats per a avançar. Els basats en les regles també van donar la seva i van quedar una mica embussats. Per tant, jo crec que ara el repte és aprendre les regles dels textos, i des dels corpus tractar de contrastar-les aprenent i contrastant-les d'alguna manera, i saber què ha après bé i quin mal.
Kepa Sarasola: Per a veure quins són els reptes als quals ens enfrontem en l'actualitat, poden existir dos nivells: un d'aplicacions i un altre de budells dins del llenguatge, eines bàsiques que després s'han d'utilitzar en les aplicacions. Es pot afirmar que les necessitats de lèxic en l'actualitat es troben gairebé al 100% cobertes. Fa 20 anys no hi havia diccionaris computacionals, tots eren de paper. Ara tens en Internet el significat de totes les paraules, com es diuen en altres llengües, etc. Morfològicament, per a llengües difícils (com el basc), el 95-98% està ple. En sintaxi fa un 90% bé per a anglès.
Llavors, a què ens anem? Doncs a la semàntica i a la pragmàtica. I per a això aquí hi ha un canvi tremend. Fa 20 anys, per a parlar de qualsevol tema, no parlem de què. Avui, per exemple, tenim Wikipedia, o Wordnet, Internet en si, etc. Ara tenim nous recursos per a entendre el significat dels textos. I això ens ha obert una porta, però encara no s'ha treballat molt.
I Aki Alegria: Al Congrés van acudir ponents convidats que reflexionen sobre el tema. Per exemple, l'expert en sintaxi de la Universitat d'Uppsala, Joakim Nivre, va assenyalar que el problema de la sintaxi no es resol al 100%, però que està molt treballat. Seguint amb la semàntica, Eneko va presentar la situació a la qual s'ha referit. També es va presentar el projecte KYOTO, un sistema que permet definir els significats de paraules i termes a través d'una plataforma wiki. També es va parlar de l'extracció de coneixement de les dades. I en la seva intervenció, Horaci Rodríguez, de la Universitat Politècnica de Catalunya, va assenyalar que hem d'intentar reprendre alguns dels reptes de la intel·ligència artificial clàssica, però amb més dades i per noves vies. I jo també sóc una mica d'aquesta opinió.
En aquest camí, Google ha obtingut molt bons resultats utilitzant alguns mètodes bàsics d'intel·ligència artificial. Però si no utilitzen un coneixement més profund, a curt termini sortirà poca innovació.
I. A. Jo crec que Google està inventant aprofitar el que està fet. Inverteix molt, saca bon partit, ha guanyat fama i ha fet una marca. Aquest coneixement o eines podrien integrar-se en aplicacions per a tots els públics i a nivell industrial. Però no aporten suficient informació i la demanda de les aplicacions és menor de l'esperat.
R. A. En la recerca no saps qui vindrà amb la bona idea. Encara que hi hagi un gran equip de recerca, potser les bones idees no surten d'aquí, no es pot predir. Per això, les grans empreses, com Google, a més de desenvolupar els seus projectes, fitxen investigadors d'èxit.
Molta gent ha anat a Google. Als Estats Units han esmentat que els millors investigadors han anat a Google. Entre els joves s'ha rebut molta gent i en les universitats s'ha notat això. La gent ha anat allí, després han dit que en Google no tot és tan bonic, però molt pocs han fet fama des d'allí.
I. A. En aquesta àrea es detallen les aplicacions que donen diners. Killer applications. Històricament s'han inclòs en aquest grup tres tipus d'aplicacions: traducció automàtica, proofing tools (és a dir, eines per a editors de text, principalment correctors) i cerca. Precisament, l'inici de Google va ser el món de la cerca. Ara s'està tractant la traducció automàtica i últimament també s'està treballant en sistemes operatius de telèfons i en proofing tools. D'alguna manera, el risc pot ser que Google monopolitzi totes aquestes recerques.
C. S: Nosaltres, d'una banda, estem contents perquè es veu clarament que les tècniques que treballem són útils. Es demostra una vegada i una altra. Però, d'altra banda, ens preocupa que Google tingui dades perquè ells són els únics. Ells saben el que la gent demana, la qual cosa cerca. I què tria la gent en els resultats de la cerca. Per a ells és molt important per a millorar el sistema. Demanant una paraula la majoria de la gent clica la quarta opció i poc després aquesta quarta serà la mateixa. Aquestes dades d'ús són molt importants, però són propietat de Google.
R. A. Google sap que la innovació és el camí per a avançar. Dirigeixen totes les energies a la innovació.
I. A. I donen prioritat als diners. Els diners, allí, ells. I això té algunes conseqüències. Per exemple, Google busca molt malament en basc. I se'ls ha dit. Però no els interessa. En un moment determinat es va decidir treballar amb un màxim de quaranta idiomes. En la resta fan una cerca literal. Això és un problema, però la marca té molta força. A més s'integra en moltes aplicacions, etc. Però avui dia l'aplicació Elebila cerca molt millor la versió en basca.
I. A. L'anglès és la referència. Per exemple, va venir al congrés un investigador d'Etiòpia. Allí parlen en llengua materna. És un llenguatge semítico, han d'utilitzar un altre tipus de teclat, però al no existir aquest tipus de teclats en els telèfons mòbils, els missatges s'envien només en anglès.
És clar que el basc és petit. Des d'un punt de vista economicista, la demanda és baixa, per la qual cosa hi ha problemes. A nivell de recerca, nosaltres estem satisfets. En alguns àmbits, almenys, som una referència per a altres llengües minoritàries. Les aplicacions basades en corpus requereixen inversions per a aconseguir els propis corpus.
R. A. Com a llengua, el basc té una tipologia pròpia, però no és especialment difícil de computar si el comparem amb altres llengües. Encara que la morfologia és més difícil de tractar, en altres àmbits, com la fonètica, és molt fàcil. Cada llengua té les seves diferències difícils i senzilles, però en general, tenint en compte totes les característiques de la llengua, la dificultat de totes les llengües és similar.
I per a comparar amb altres llengües, cal veure cada llengua en funció del nombre de parlants. Jo crec que el basc està bastant prop de les llengües que més es parlen. La diferència més significativa és la petita grandària dels corpus utilitzats, que jo crec que és la principal manca en basca. En anglès, per exemple, hi ha corpus de milers de milions de paraules. I les màquines aprenen de grans corpus. Però, depenent dels recursos, estem en la part superior de la llista.
C. S: Quant al nombre de parlants, vaig veure el basc en la llista 256, i en la recerca estem entre els 50 primers. Per què? Perquè hi ha hagut ajudes oficials, i crec que els que som aquí fem les coses ordenades. Hem fet les coses d'una manera ordenada i planificada. Les eines i recursos que generes en un moment determinat són valuosos en el futur. Treballem de manera incremental.
El grup IXA treballa en el processament del basc. No són els únics. Però un robot és investigador de referència en l'esforç per parlar en basc. Si les grans empreses, per exemple, volguessin desenvolupar aplicacions en basca, probablement haurien de dirigir-se a elles. Entre altres, han participat en el desenvolupament del projecte ANHITZ, creant un personatge virtual que respon a preguntes científiques. En definitiva, un robot que parla. És un bon exemple del processament del llenguatge; vist des de fora, ANHITZ no sembla una aplicació revolucionària, ja que no respon tan ràpid i fàcilment com un robot de ficció. Per contra, qui coneix el treball que hi ha darrere del projecte realitza una valoració molt positiva. Hi ha molt a fer en el processament del llenguatge, no hi ha dubte. Però el que està fet és un treball enorme, no hi ha dubte d'això.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia