}

O tamaño importa: grandes coleccións de textos, necesarias no procesamiento da linguaxe

2009/11/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria

Desde o inicio dos intentos de ensinar idiomas ás máquinas utilizáronse aproximacións intuitivas e simplificadoras. Os coñecementos lingüísticos dos lingüistas pasaban a estruturas que as máquinas comprendían coa axuda dos informáticos, e a través delas tratábase a lingua. Con todo, nos últimos anos cada vez son máis as técnicas baseadas en grandes corpus e en métodos puramente estatísticos.
O tamaño importa: grandes coleccións de textos, necesarias no procesamiento da linguaxe
01/11/2009 | Leturia Azkarate, Igor | Informático e investigador
(Foto: Guillermo Roia)

O procesamiento da linguaxe existe case desde a creación de computadores. As primeiras máquinas electrónicas programables creadas nos anos 40 do século pasado, debido á Segunda Guerra Mundial, utilizáronse principalmente paira descifrar as mensaxes e romper os códigos, pero, tras a guerra, comezou a traballar moito no procesamiento da linguaxe, sobre todo no campo da tradución automática.

Naqueles inicios, sobre todo os matemáticos, utilizaban técnicas moi sinxelas, influídas polos costumes da criptografía: basicamente pretendían obter a tradución automática a través dos dicionarios e as modificacións da orde de palabras. Pero pronto se deron conta de que as linguas eran máis que iso, e que había que utilizar modelos lingüísticos máis complexos. Así, fóronse incorporando lingüistas aos grupos e aplicando as teorías de Saussure e Chomsky. Desde entón, e ao longo de décadas, en todos os ámbitos do procesamiento da linguaxe (morfología, corrección ortográfica, sintaxe, desambiguación de significados...) predominou una aproximación: a adaptación do coñecemento baseado na intuición dos lingüistas a estruturas sinxelas que poden ser tratadas polos computadores (regras, árbores, grafos, linguaxes de programación...).

Pero estes métodos tamén teñen as súas limitacións. Por unha banda, os mellores lingüistas tampouco poden ter en conta toda a casuística que ofrece una lingua; por outro, as linguas teñen una gran complexidade e riqueza paira expresarse mediante estruturas simples. Estas limitacións son aínda maiores na linguaxe conversacional. Con todo, non había outro camiño; tendo en conta a capacidade das máquinas da época, esta era a única maneira de falar coa linguaxe. E con estas técnicas o progreso foi relativamente lento durante moitos anos.

Chegada de corpus e estatística

Con todo, nas dúas últimas décadas, un achegamento máis empírico está a dominar o procesamiento da linguaxe, baseado na explotación de grandes coleccións de textos e en métodos estatísticos. En lugar de basearse no coñecemento intuitivo, utilízanse grandes mostras lingüísticas reais, é dicir, corpus, paira ter en conta o maior número de casos posibles da lingua. E sobre eles utilízanse métodos como a estatística ou a aprendizaxe automática, con poucas técnicas lingüísticas. Mesmo naqueles casos nos que se tenta modelizar a lingua mediante estruturas computables, extraen os modelos automaticamente dos corpus. Por iso, traballando con métodos estatísticos, para que una máquina poida falar, debe ter acceso a unha enorme colección de textos e a recursos paira traballar con ela.

Este cambio metodológico débese principalmente a dous factores. Por unha banda, os computadores actuais, a diferenza dos anteriores, teñen a capacidade de manexar cantidades inxentes de datos. Doutra banda, hai máis textos dispoñibles en formato electrónico que nunca, sobre todo desde a creación de Internet.

Así, utilízanse corpus e técnicas estatísticas nos correctores ortográficos (buscando contextos similares á palabra incorrecta en corpus), na tradución automática (utilizando memorias de tradución ou textos de sitios web multilingües paira obter estatisticamente traducións de palabras, sintagmas ou frases o máis grandes posible), na desambiguación de sentidos, na extracción terminolóxica automática, etc. E en xeral pódese dicir que canto máis grandes son os corpus, mellores resultados obteñen os sistemas. Por exemplo, Franz Joseph Och de Google presentou no congreso do ACL (Association for Computational Linguistics) de 2005 o seu sistema de tradución automática estatística, adestrado sobre un corpus de 200.000 millóns de palabras. E desde entón o seu sistema é a principal referencia na tradución automática e a que gaña todos os concursos. Algo parecido ocorre noutros ámbitos.

(Foto: iStockphoto.com/chieferu)

Futuro, hibridación

Con todo, esta metodoloxía tamén ten limitacións. Nalgunhas linguas e tarefas xa se utilizan corpus realmente xigantescos, e pódese dicir que xa alcanzaron a cota superior, xa que son moi difíciles de seguir mellorando moito máis os resultados obtidos. Noutras linguas e ámbitos non existe un corpus tan grande, e con métodos exclusivamente estatísticos non se poden obter resultados tan bos.

Por iso, a tendencia recente a mellorar os métodos estatísticos é combinalos coas técnicas lingüísticas e crear métodos híbridos. E no futuro esa será a vía paira avanzar no procesamiento da linguaxe. Se queremos que as máquinas comprendan e traten a linguaxe en breve, e queremos que as máquinas falen, será necesario que os matemáticos, informáticos e lingüistas vaian da man.

Adam Kilgarriff: "As bases de datos xigantes a texto pódense recompilar con relativa facilidade"
O uso dos corpus no procesamiento da linguaxe supuxo una revolución nos últimos anos, e sen dúbida o inglés Adam Kilgarriff foi testemuña diso. Traballou desde hai anos con corpus en inglés, e hoxe en día é un referente no uso de internet como corpus. Sketch Engine (www.sketchengine.co.uk) é un dos fundadores da ferramenta que serve paira traballar nesta liña. Participou no congreso SEPLN 2009 sobre procesamiento da linguaxe organizada polo grupo IXA da UPV en Donostia.
Cales son as principais dificultades para que una máquina poida falar?
Hai moitos. O home sabe moitas cousas. Desde que nacemos estamos a aprender, vendo, percibindo... temos moita sabedoría na cabeza e sabemos cal é a relación entre as ideas. A investigación de 50 anos non é suficiente para que a intelixencia artificial poida facer o mesmo. Nós temos todos os datos na cabeza. De aí a maior dificultade que teñen as máquinas paira falar: aínda non acertamos para que unha chea de materiais sexan útiles paira o computador.
Doutra banda, temos moitos problemas relacionados coa linguaxe. Hai moitas formas de dicir calquera cousa, e paira os computadores é moi difícil entender que dúas frases expresan a mesma idea. Non comprenderá que as frases "Este lugar é marabilloso" e "Aquí hai una praia fermosa" expresan basicamente a mesma idea. O contrario, una soa frase pode ter máis dun significado. A frase "Vin un rato" ten diferente significado no Palacio Miramar ou nun laboratorio de bioloxía.
Estes son os principais problemas xerais (pero hai outros moitos pequenos).
(Foto: Guillermo Roia)
É necesario utilizar a intelixencia artificial no procesamiento da linguaxe?
A aprendizaxe automática está a ser utilizado paira cada vez máis cousas no procesamiento da linguaxe. Pero a intelixencia artificial non é só una cousa, senón que se desenvolveron moitas estratexias en diferentes ámbitos. A aproximación que me interesa paira o tratamento da lingua é atopar patróns a partir de moitos datos. Un neno faio, busca patróns nos sons, os significados, a gramática, etc. e é o que crea o léxico do neno. É o noso traballo. Por exemplo, partimos dunha palabra e con ela buscamos palabras que aparecen no mesmo contexto.
A aprendizaxe automática, por exemplo, permite buscar patróns e construír coñecemento por computador. Trátase, por tanto, dunha forma de afrontar un dos principais problemas do procesamiento da linguaxe, é dicir, de resolver un caso no que una soa palabra ten máis dun significado. Isto é posible si utilizamos corpus grandes.
O mellor corpus é Internet?
Depende do obxectivo. En moitos dos meus traballos, cantos máis datos utilizo, mellor funciona. Pero a rede tamén expón algunhas dificultades. Hai moito spam. Por tanto, a mellor estratexia paira xestionar estes datos é a que utilizan Google e Yahoo: recompilar moitos sitios web e buscar só o texto paira traballar con menos información (nun gigabyte entran poucos vídeos, pero hai moita cantidade de texto). Desta forma pódense recompilar de forma relativamente sinxela bases de datos xigantes a texto. Na actualidade, o inglés máis grande ten 5.500 millóns de palabras. E deste tipo pódense atopar moitos patróns.
O problema é que a linguaxe no que una máquina conversará non debe ser, por exemplo, o mesmo estilo que escriben os científicos nos artigos. Debería ser o idioma no que falamos. Por tanto, non serve paira iso un gran corpus de textos escritos en artigos ou xornais. Necesítase un corpus grande baseado na conversación, baseado en chats. Pero é difícil recompilar estes textos e a confidencialidade faio aínda máis difícil. Paira a nosa investigación recollemos textos de blogs onde a escritura ten menos formalidad.
Leturia Azkarate, Igor
Servizos
258
2009
Resultados
020
Robótica
Artigo
Servizos

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia