}

Bota a pregunta!

2014/04/01 Lopez-Gazpio, Iñigo - EHUko IXA Taldeko ikertzailea Iturria: Elhuyar aldizkaria

Ed. Andrei Kovalev (Follow)/350RF

Acordádesvos de pequenos cando o profesor termine un tema "a ver, botade vosas preguntas!" cando di? Nese mesmo momento comezaba o xogo de agocho: o ombreiro do anterior compañeiro, detrás da mesa, detrás da porta da clase... calquera movemento de escape servíanos paira non atoparnos coa mirada do profesor. A todos estes tímidos traémoslles una boa noticia, xa que a partir de hoxe a computadora soportará os bicos por nós.

Nas seguintes liñas imos expor os inicios do sistema que, partindo dun corpus, xerará a nivel de frase preguntas de forma automática e masiva (estes sistemas coñécense como QG (Question Generator). Paira iso, do mesmo xeito que facemos na cociña paira preparar un delicioso prato, na elaboración de preguntas tamén será necesario seguir uns pasos concretos. De feito, os pasos a seguir paira crear automaticamente preguntas e, por exemplo, paira facer una pizza son moi similares. O proceso que seguiremos paira pór en marcha toda esta cuestión consta de catro pasos a seguir de forma secuencial:

1. Procesado do corpus de entrada

Primeiro paso, orientado a procesar --analizar lingüisticamente - o corpus de entrada. Por tanto, neste apartado trataremos de obter a máxima información a partir do corpus de entrada. Aínda que esta procura de información repítese en varios ámbitos do procesamiento da linguaxe, é una tarefa fundamental si queremos seguir adiante con sentido común. Paira abordar este apartado con ganas, será necesario utilizar diferentes recursos lingüísticos, como analizadores sintácticos, analizadores morfológicos, analizadores semánticos, lematizadores, tokenizadores, etc. Así, seremos capaces de identificar verbos --xogados e non xogos-, nomes, adxectivos, adverbios... nas frases orixinais, ademais de palabras e as súas sintagmas nominais, casos declinativos de sintagma nominal, composicións sintagmáticas entre verbos --verbos simples, compostos, auxiliares... --e a identificación das dependencias sintácticas das palabras das frases.

Mesmo cando nos dedicamos á cociña, sen darnos conta, facemos unha análise similar a ese inicialización: preparamos información e ferramentas. Primeiro collemos o manual que necesitamos paira preparar o prato, despois lemos os ingredientes que necesitamos, enumerámolos e buscámolos, e logo colocamos os útiles que necesitamos sobre a mesa da cociña paira realizar os pasos da receita sen trabas.

2. Selección de resultados das preguntas

Una vez que enumeramos os pratos da receita -mellor que esteamos na nosa neveira que na tenda!-, o seguinte paso é ir a por eles. Tomate e xamón na neveira, queixo na mesa da cociña, auga na fonte, fariña na balda, sal no armario... ; no entanto, en lugar de utilizar os tomates da horta do seu avó, utilizaremos a salsa de tomate do día anterior, que estaba moi doce e que seguro que queda moi ben.

Neste segundo paso da pregunta-creador que estamos a desenvolver, do mesmo xeito que fixemos na cociña, o obxectivo é ir buscando os mellores resultados das preguntas. Neste apartado tamén é necesario utilizar os recursos de procesamiento natural da linguaxe, xa que debemos seleccionar os mellores de entre os compoñentes que clasificamos anteriormente. Esta selección pódese realizar a través de diferentes fontes de información, como redes semánticas, dicionarios de vivos e inanimados, bases de datos de artigos, noticias, institucións, personaxes ilustres, etc. Así, entre todas as palabras e sintagmas, elixiremos aquelas que nos dean máis información e, por tanto, terán máis posibilidades de que as preguntas que vaiamos xerar sexan interesantes.

3. Selección de encuestadores

Falta pouco paira terminar, empezamos a quentar o forno e xa somos capaces de cheirar o prato que estamos a preparar. Temos os compoñentes encima da mesa, os útiles que necesitamos. Por tanto, chegou o momento de mancharse as mans, xa que temos que preparar cada un dos ingredientes: formar a masa de fariña, pelar e raspar o queixo, quitar as sementes ao tomate, quitar as de repartición de plástico ao xamón...

Así mesmo, os traballos a realizar no proceso de xeración de preguntas son similares. De feito, analizamos o corpus e identificado os resultados das preguntas, polo que paira poder seguir adiante necesitamos manchar as mans, aínda que sexa de forma virtual, porque hai que preparar os tipos de preguntas que xeraremos. A elección do tipo de pregunta, xunto co interrogativo, é una tarefa relacionada co traballo realizado en fases anteriores. Así, se conseguimos identificar datas no corpus de entrada, sería lóxico crear una pregunta de tipo temporal utilizando paira iso un interrogativo “cando” ou deste tipo. Si, pola contra, conseguimos identificar a personaxes ilustres, sería lóxico que constituísemos una pregunta asociada a un personaxe, nese caso utilizásese o interrogativo “quen”. Traballaremos como se explicou ata que se definiu o tipo de pregunta paira todos os candidatos identificados na fase anterior.

4º Construción de preguntas

Temos todo preparado, só queda a recta final, é dicir, unificar todo o traballo realizado, pero temos que ter coidado porque un erro de última hora pode danar todo o traballo realizado. Despois de repasar todos os ingredientes que preparamos, empezamos a traballar: esténdese o tomate sobre a masa de pizza, se esparce o queixo e o xamón por encima e métese o prato no forno. Agora só temos que esperar uns vinte minutos, mentres tanto, preparamos pratos, cubertos e vasos ata que a alarma do forno advírtanos que chegou a hora de sacar o alimento.

No último paso do sistema de xerador de preguntas tamén teremos que realizar tarefas similares. É dicir, temos que coller a frase orixinal e construír a pregunta a partir duns patróns e unhas regras. Ademais, haberá que realizar outras adaptacións, como a eliminación de conectores, a adecuación de marcas de puntuación, a adaptación de casos e marcas de verbos, etc., pero non só iso, senón que tamén se poden facer outras cousas que se nos ocorran, xa que todo traballo que teña como obxectivo mellorar as preguntas será benvido, como a resolución de anáforas e a exclusión de información allea ás preguntas --resumir frases, alegia--.

Conclusións

Como vistes, a posta en marcha dun sistema de xeración masiva de preguntas require catro pasos: procesar o corpus de entrada, seleccionar os resultados das preguntas, seleccionar os cuestionarios e finalmente construír as preguntas. Tan fácil como facer una pizza!

Ed. Creado a partir das imaxes da web http://openclipart.org. En dominio público

O sistema pregunta-creativo que desenvolvemos -que é un sistema moi básico de QG- e outros sistemas capaces de xerar exercicios de forma automática son recursos estreitamente relacionados co ámbito do ensino-aprendizaxe, xa que reducen considerablemente o tempo de preparación do material por parte do profesorado. En xeral, os sistemas automáticos de creación de exercicios adoitan estar integrados en plataformas de e-learning de maior tamaño, o que permite dispor dunha chea de usuarios que participan e aprenden a cambio dunha pequena carga de traballo.

Paira terminar, a todos os tímidos que mencionamos ao principio xa sabedes que as vosas vergoñas poden desaparecer tan facilmente como facer una pizza (aínda que necesitedes algo máis de vinte minutos), así que saíde dos vosos agochos e botade vosas preguntas !

Bibliografía

Web oficial de Wikipedia, http://www.wikipedia.org.
Zona da aplicación Eihera do grupo IXA http://ixa.si.ehu.es/Ixa/Produkzioak/1273220198
Zona da aplicación Eulia do grupo IXA http://ixa.si.ehu.es/Ixa/Produkzioak/1274694158
Zona da aplicación Ixati do grupo IXA http://ixa.si.ehu.es/Ixa/Produkzioak/1273220525
Aldabe, I.; López de Lacalle, M.; Maritxalar, M.; Martínez, E.; Uria, L.: Fonte: An Automatic Question Generator Based on Corpora and NLP Techniques. UPV/EHU.
Yao, X.; Bouma, G.; Zhang, E. Semantics-based Question Generation and Implementation. Johns Hopkins University, University of Groning. Saarland University.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia