Falando da linguaxe das máquinas. Adoites de expertos
2009/11/01 Roa Zubia, Guillermo - Elhuyar Zientzia Iturria: Elhuyar aldizkaria
Eneko Agirre: Eu creo que son cuestións relacionadas coa comprensión. A investigación levada a cabo nos últimos anos supuxo un gran salto cualitativo, pero iso non significa que a máquina nos entenda" agora. Eu creo que se deron pequenos pasos e as máquinas comprenden cousas en cada vez máis zonas. Que é un lugar, por exemplo. Cos apelidos sempre hai problema, Azpeitia é una persoa ou un lugar? Ou una empresa? Empezar a comprender estas cousas é un paso adiante. E aínda que ás persoas parézalles moi sinxelo, sen contexto son difíciles. Por tanto, o reto é ensinar á máquina fragmentos deste tipo de coñecementos.
De feito, os métodos matemáticos e estatísticos baseados en corpus están a tocar dalgunha maneira, están a facer o que podían facer e teñen dificultades paira avanzar. Os baseados nas regras tamén deron a súa e quedaron un pouco atrancados. Por tanto, eu creo que agora o reto é aprender as regras dos textos, e desde os corpus tratar de contrastalas aprendendo e contrastándoas dalgunha maneira, e saber que aprendeu ben e que mal.
Kepa Sarasola: Paira ver cales son os retos aos que nos enfrontamos na actualidade, poden existir dous niveis: uno de aplicacións e outro de tripas dentro da linguaxe, ferramentas básicas que logo se deben utilizar nas aplicacións. Pódese afirmar que as necesidades de léxico na actualidade atópanse case ao 100% cubertas. Fai 20 anos non había dicionarios computacionales, todos eran de papel. Agora tes en Internet o significado de todas as palabras, como se din noutras linguas, etc. Morfológicamente, paira linguas difíciles (como o eúscaro), o 95-98% está cheo. En sintaxe fai un 90% ben paira inglés.
Entón, a que nos imos? Pois á semántica e á pragmática. E paira iso aquí hai un cambio tremendo. Fai 20 anos, paira falar de calquera tema, non falamos de que. Hoxe, por exemplo, temos Wikipedia, ou Wordnet, Internet en si, etc. Agora temos novos recursos paira entender o significado dos textos. E iso abriunos una porta, pero aínda non se traballou moito.
I Aki Alegría: Ao Congreso acudiron relatores invitados que reflexionan sobre o tema. Por exemplo, o experto en sintaxe da Universidade de Uppsala, Joakim Nivre, sinalou que o problema da sintaxe non se resolve ao 100%, pero que está moi traballado. Seguindo coa semántica, Eneko presentou a situación á que se referiu. Tamén se presentou o proxecto KIOTO, un sistema que permite definir os significados de palabras e termos a través de una plataforma wiki. Tamén se falou da extracción de coñecemento dos datos. E na súa intervención, Horacio Rodríguez, da Universidade Politécnica de Cataluña, sinalou que temos que tentar retomar algúns dos retos da intelixencia artificial clásica, pero con máis datos e por novas vías. E eu tamén son un pouco desa opinión.
Neste camiño, Google obtivo moi bos resultados utilizando algúns métodos básicos de intelixencia artificial. Pero si non utilizan un coñecemento máis profundo, a curto prazo sairá pouca innovación.
I. A. Eu creo que Google está a inventar aproveitar o que está feito. Inviste moito, saca bo partido, gañou fama e fixo una marca. Este coñecemento ou ferramentas poderían integrarse en aplicacións paira todos os públicos e a nivel industrial. Pero non achegan suficiente información e a demanda das aplicacións é menor do esperado.
R. A. Na investigación non sabes quen virá coa boa idea. Aínda que haxa un gran equipo de investigación, quizá as boas ideas non saian de aí, non se pode predicir. Por iso, as grandes empresas, como Google, ademais de desenvolver os seus proxectos, fichan a investigadores de éxito.
Moita xente foi a Google. En Estados Unidos mencionaron que os mellores investigadores han ido a Google. Entre os mozos recibiuse moita xente e nas universidades notouse iso. A xente foi alí, logo dixeron que en Google non todo é tan bonito, pero moi poucos fixeron fama desde alí.
I. A. Nesta área detállanse as aplicacións que dan diñeiro. Killer applications. Historicamente incluíronse neste grupo tres tipos de aplicacións: tradución automática, proofing tools (é dicir, ferramentas paira editores de texto, principalmente correctores) e procura. Precisamente, o inicio de Google foi o mundo da procura. Agora estase tratando a tradución automática e ultimamente tamén se está traballando en sistemas operativos de teléfonos e en proofing tools. Dalgunha maneira, o risco pode ser que Google monopolice todas estas investigacións.
C. S: Nós, por unha banda, estamos contentos porque se ve claramente que as técnicas que traballamos son útiles. Demóstrase unha e outra vez. Pero, doutra banda, preocúpanos que Google teña datos porque eles son os únicos. Eles saben o que a xente pide, o que busca. E que elixe a xente nos resultados da procura. Paira eles é moi importante paira mellorar o sistema. Pedindo una palabra a maioría da xente clica a cuarta opción e pouco despois esa cuarta será a mesma. Estes datos de uso son moi importantes, pero son propiedade de Google.
R. A. Google sabe que a innovación é o camiño paira avanzar. Dirixen todas as enerxías á innovación.
I. A. E dan prioridade ao diñeiro. O diñeiro, alí, eles. E iso ten algunhas consecuencias. Por exemplo, Google busca moi mal en eúscaro. E dicir. Pero non lles interesa. Nun momento determinado decidiuse traballar cun máximo de corenta idiomas. No resto fan una procura literal. Iso é un problema, pero a marca ten moita forza. Ademais intégrase en moitas aplicacións, etc. Pero hoxe en día a aplicación Elebila busca moito mellor a versión en eúscaro.
I. A. O inglés é a referencia. Por exemplo, veu ao congreso un investigador de Etiopía. Alí falan en lingua materna. É unha linguaxe semítico, teñen que utilizar outro tipo de teclado, pero ao non existir este tipo de teclados nos teléfonos móbiles, as mensaxes envíanse só en inglés.
Está claro que o eúscaro é pequeno. Desde un punto de vista economicista, a demanda é baixa, polo que hai problemas. A nivel de investigación, nós estamos satisfeitos. Nalgúns ámbitos, polo menos, somos una referencia paira outras linguas minoritarias. As aplicacións baseadas en corpus requiren investimentos paira conseguir os propios corpus.
R. A. Como lingua, o eúscaro ten una tipoloxía propia, pero non é especialmente difícil de computar se o comparamos con outras linguas. Aínda que a morfología é máis difícil de tratar, noutros ámbitos, como a fonética, é moi fácil. Cada lingua ten as súas diferenzas difíciles e sinxelas, pero en xeral, tendo en conta todas as características da lingua, a dificultade de todas as linguas é similar.
E paira comparar con outras linguas, hai que ver cada lingua en función do número de falantes. Eu creo que o eúscaro está bastante preto das linguas que máis se falan. A diferenza máis significativa é o pequeno tamaño dos corpus utilizados, que eu creo que é a principal carencia en eúscaro. En inglés, por exemplo, hai corpus de miles de millóns de palabras. E as máquinas aprenden de grandes corpus. Pero, dependendo dos recursos, estamos na parte superior da lista.
C. S: En canto ao número de falantes, vin o eúscaro na lista 256, e na investigación estamos entre os 50 primeiros. Por que? Porque houbo axudas oficiais, e creo que os que estamos aquí facemos as cousas ordenadas. Fixemos as cousas dunha maneira ordenada e planificada. As ferramentas e recursos que xeras nun momento determinado son valiosos no futuro. Traballamos de forma incremental.
O grupo IXA traballa no procesamiento do eúscaro. Non son os únicos. Pero un robot é investigador de referencia no esforzo por falar en eúscaro. Se as grandes empresas, por exemplo, quixesen desenvolver aplicacións en eúscaro, probablemente deberían dirixirse a elas. Entre outros, participaron no desenvolvemento do proxecto ANHITZ, creando un personaxe virtual que responde a preguntas científicas. En definitiva, un robot que fala. É un bo exemplo do procesamiento da linguaxe; visto desde fóra, ANHITZ non parece una aplicación revolucionaria, xa que non responde tan rápido e facilmente como un robot de ficción. Pola contra, quen coñece o traballo que hai detrás do proxecto realiza una valoración moi positiva. Hai moito que facer no procesamiento da linguaxe, non hai dúbida. Pero o que está feito é un traballo enorme, non hai dúbida diso.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia