MultiMeteo també sap basc
2001/11/01 Díaz de Ilarraza, Arantza | Sarasola, Kepa | Mayor, Aingeru | Loinaz, Miel | Chevreau, Karine | Coch, José Iturria: Elhuyar aldizkaria
La qualitat del treball del traductor humà serà, sens dubte, millor i més rica, però avui dia és possible crear documents en un camp concret i tècnic com és la meteorologia, utilitzant tècniques automàtiques. En
aquest article presentem el sistema interactiu Multimeteo que utilitza la creació textual multilingüe en l'àmbit de la meteorologia, així com l'adaptació que hem realitzat a la creació en basca. El sistema desenvolupat ofereix pronòstics meteorològics diaris en la següent adreça web: http://www.ingurumena.net/udala //www.inm.es/wwi/multimeteo/multimeteo.html
Antecedents
Encara que no s'utilitza la creació automàtica de textos, cal esmentar aquí un sistema que tradueix automàticament les prediccions meteorològiques. El sistema METEO creat pel grup TAUM de Mont-real ha estat el sistema de traducció més reeixit de tots els temps. Era difícil trobar traductors per a traduccions avorrides que s'assemblaven diàriament, i el servei meteorològic oficial del Canadà va començar a investigar les vies automàtiques. El sistema METEO obtingut ha estat traduint butlletins meteorològics de l'anglès al francès des de 1977, i el 80% de la seva traducció és totalment directa. No obstant això, l'èxit de la meteorologia no s'ha estès, ja que encara que el sistema s'ha adaptat a altres qüestions, no s'han obtingut resultats d'igual qualitat. Sembla que l'àmbit de les prediccions meteorològiques té una especial adequació a aquesta mena de processos automàtics.
L'entorn de treball Forecast Generator (FoG) també es va posar en marxa al Canadà en 1993. En aquest sistema, el meteoròleg utilitza un editor gràfic per a adaptar el mapa que mostra les dades meteorològiques i posteriorment el sistema genera automàticament la predicció meteorològica en anglès i francès per a la regió.
Història del sistema multiMeteo
HGMTN tWWiWpWeWtToTopToeVvpVeVtTeDT eHDFFtHNEn 1995 el Servei Meteorològic Francès (Meteo France) va impulsar el projecte MultiMeteo per a la publicació de les previsions meteorològiques en diversos idiomes. Per a això es va posar en contacte amb l'Institut Nacional de Meteorologia (INM) d'Espanya, el Royal Meteorological Institute (RMI) de Bèlgica, el Zentralanstallt für Meteorologie und Geodynamik d'Àustria (ZAMG) i dues empreses especialitzades en la creació lingüística: Lexiquest, amb seu a París, i CL Serveis Lingüístics de Madrid. El servei de meteorologia alemany (DWD) també es va unir inicialment, però va ser abandonat posteriorment.
Aquestes associacions van presentar el projecte denominat “Multilingual Production of Weather Forecasts” i van obtenir finançament comunitari. El sistema es va desenvolupar en quatre idiomes: francès, anglès, castellà i alemany. Els resultats de l'avaluació realitzada al febrer de 1999 van ser molt positius.
L'any 2000 INM i Lexiquest van aconseguir un acord per a estendre el sistema a quatre llengües més: l'holandès, el català, el gallec i el basc. El Grup Ixa i el Centre de Terminologia UZEI de la Facultat d'Informàtica de Sant Sebastià ens hem encarregat de la difusió al basc, i en aquest moment estem a punt de finalitzar la fase de desenvolupament del projecte.
Procediment habitual de creació de prediccions meteorològiques
Per a la recollida de dades meteorològiques s'utilitzen dues fonts: la recollida superficial de dades i la recollida espacial. Les dades superficials es prenen en els observatoris meteorològics, en els quals es mesuren i recullen en tot moment les variables físiques que descriuen l'estat de l'atmosfera. Altres dades que s'obtenen de l'espai són els satèl·lits meteorològics, els satèl·lits geoestacionaris METEOSAT i els satèl·lits polars de la sèrie TIRS-NOAA, que no per a d'enviar informació.
Totes les dades numèriques obtinguts es processen mitjançant complexos models matemàtics. Els processos automàtics simulen l'evolució de les variables físiques en els pròxims dies, generant matrius de dades per a prediccions meteorològiques. El meteoròleg té llavors l'oportunitat de retocar aquestes matrius de dades, és a dir, de completar i arrodonir la previsió amb la seva experiència. Com a conclusió, tal com s'observa en la Taula 1, les matrius presenten dades de temperatura (Et), direcció del vent (DD) i força (FF), núvols, pluja, etc. per a diferents hores (períodes de 3 hores en el cas del sistema de l'INM). Per a cada punt del mapa s'obté una matriu d'aquest tipus.
Amb aquestes dades els meteoròlegs creen les prediccions meteorològiques manualment. Aquest treball resulta molt llarg i costós, sobretot quan d'una sola predicció cal fer diverses versions en diferents idiomes o estils (prediccions generals, de platges, de mar, de muntanya, per comunitat, per província...).
Aquí està l'interès de MultiMeteo. No es tracta de substituir l'obra dels meteoròlegs, sinó de contribuir de manera interactiva a les seves tasques, de manera que es puguin difondre les prediccions en diferents idiomes i estils. A més, permet realitzar prediccions per a diferents llocs del mapa.
Una eina de suport: creació multilingüe interactiva
Aquesta tècnica, en primer lloc, mitjançant la creació automàtica, genera un esborrany a partir de dades d'entrada potser incomplets. Encara que té la capacitat de crear text en diversos idiomes, al meteoròleg, per a actuar com a corrector, se li ofereix únicament en la seva llengua materna. Si el meteoròleg desitja realitzar una correcció en un fragment de text, haurà de fer clic en la part que desitgi modificar. A continuació, el menú “pop-up” li oferirà una sèrie d'opcions i modificadors alternatius, triant un d'ells per a realitzar la correcció de manera còmoda. Tenint en compte els canvis realitzats, el sistema generarà textos predictius en tots els idiomes.
Els avantatges d'aquesta tècnica són la rapidesa (per a produir cada text en cada idioma es necessiten uns 2 segons; un traductor humà necessita uns 10 minuts); la viabilitat de la creació, encara que alguna dada no s'hagi recollit encara, l'alta qualitat dels textos creats (a vegades amb tocs humans); la facilitat de manteniment i adaptació; i finalment, l'acceptació per part dels usuaris humans (als meteoròlegs no els llevarà el lloc de treball, sinó que els ajudarà a escriure en llengües estranyes).
Creació automàtica de butlletins
MultiMeteo realitza la creació de dues formes:
- Per a la redacció del títol de cada paràgraf s'utilitza un text fix amb el nom de les províncies, i per a escriure l'encapçalat dels butlletins (veure figura 1) s'utilitza una plantilla amb diverses variables internes, per exemple:
Predicció meteorològica *IS *CO. *MO *FD.
Hora Local: *FP.
Valor de l'anunci: *TT.
on:
- El valor d'IS pot ser "per províncies", "per illes" o res.
- Valor del CO - nom de les comunitats (per exemple, per a la "Comunitat Autònoma de Galícia").
- Mes MO ("Juny")
- Data de la DF, expressada en xifres.
- FP indica hora
- Període de predicció per TT (per exemple, “avui de 06.00 a 12.00 de la mitjanit”).
- Per a escriure el cos dels paràgrafs s'utilitza un mètode molt més complex. En els següents punts s'explica l'arquitectura i els mòduls necessaris per a abordar la creació automàtica a aquest nivell.
Arquitectura general del sistema
El motor de generació utilitzat pel sistema es va desenvolupar en 1994 en francès per a la generació automàtica de cartes comercials. En 1995 es va estendre a l'anglès integrant-se en un prototip de traducció de manuals tècnics. I el mateix any també es va integrar en el projecte “Multilingual Production of Weather Forecasts” per a incorporar nous llenguatges i funcionalitats en la creació de butlletins meteorològics (creació interactiva i gestió de coneixements estilístics).
L'arquitectura del sistema es pot veure en la figura 2. La primera fase consisteix en l'obtenció i reformateo d'una base de dades meteorològics que permeti la utilització de mòduls de generació. Posteriorment, la tasca del mòdul de creació es divideix en dues parts: planificar i executar.
Mòdul de planificació
La planificació utilitza bases de coneixement de conceptes i estils (UE) i es divideix en dues fases:
- Planificació general: el butlletí s'organitza en diversos paràgrafs (capçalera, paràgraf per a cada província, etc.)
- Planificació meteorològica: a partir de les dades d'entrada es determina el contingut de cada paràgraf. Els esdeveniments ( event ) que han d'aparèixer en el paràgraf i les relacions entre ells es recullen en una llista utilitzant un interlingua, de manera que la descripció sigui independent dels idiomes. Els següents mòduls es realitzaran per a cada idioma.
El succés és un objecte conceptual associat a la situació meteorològica o evolució de la situació. Els fenòmens són de dos tipus: atòmics i moleculars.
El succés atòmic representa un paràmetre meteorològic sense evolució, amb un únic valor associat ( atribut Value). Per exemple , el succés atòmic que representa el cel cobert és:
Event_CloudCovering4: Event{} Value=Class
CloudCovering_code4; Time_Representation=
TimeRepresentationMod{};}
Class CloudCovering_code4 és un conjunt de conceptes simples: Overcast, NoSun i VeryCloudy-Overcast. Cadascun d'aquests conceptes està associat a un terme en cada llengua.
El succés molecular indica més d'un paràmetre. Per exemple, quan parlem de vent podem tenir força, direcció i dades d'evolució. Poden portar diversos valors ( Value0 , Value1 , etc. atributs), així com un operador (atribut Operator) que especifica la manera de recollir aquests valors. Per exemple, el succés molecular per a descriure el cel sense núvols a estar cobert és:
GrowingCloudier_Min0: Event_mol{ Value0=Event_CloudCovering0; Value1=
Event_CloudCovering4;
Operator= Class
GrowingCloudier_Min0; Time_Representation=
TimeRepresentationMod{};}
Aquest succés molecular es manifesta mitjançant dos episodis atòmics i un operador. Serveix per a situar els esdeveniments estafi - representation en el temps (present, passat o futur) i indica el període (dia, matí, tarda, nit...).
A la sortida del mòdul de planificació se selecciona un concepte per a cada esdeveniment atòmic i per a cada classe d'atribut Operator dels esdeveniments moleculars. A més, es poden afegir altres atributs (automàticament o en interacció amb el meteoròleg): índex de probabilitat, fase, període...
Mòdul d'execució
simple
semàntica ( Rsem )
UsemR1_HIVERN= Estali1Sem
Usem = Estali1Sem
El mòdul per a materialitzar lingüísticament els conceptes obtinguts en cada llengua està basat en la Teoria del Significat - Text (Mel’cuk 1988, Polguère 1988). En aquesta fase s'utilitza una base de coneixement lingüística que es divideix en cinc etapes: predenotación, semàntica, sintaxi profunda, sintaxi superficial i morfologia.
- Predenotación. En aquesta etapa se selecciona per a cada concepte simple derivat de la planificació un terme corresponent a aquest idioma. Per exemple, per al concepte simple Overcast del grup Class CloudCovering_code4 anteriorment esmentat se seleccionarà un dels termes Cel, Cobert o Cobert. Aquests termes es divideixen en unitats semàntiques ( USem ), amb les quals es crea l'expressió semàntica ( RS ) (veure ).
- Semàntica. De l'expressió semàntica Rsem es forma el graf de la sintaxi profunda formada per nodes i relacions, per al que se selecciona la unitat lexical corresponent a cada unitat semàntica.
- Sintaxi profunda. Es construeix un graf que té totes les paraules de la frase a crear en els nodes.
- Sintaxi cutània. S'ordenen els nodes per a determinar el lloc que ha d'ocupar cada paraula en la frase.
- Morfologia. La forma de paraula que li correspon segons la informació morfosintàctica de cada node es recull del diccionari. En el diccionari s'emmagatzemen totes les formes declinades per a evitar la creació morfològica.
Adaptació al basc
diürna
•
•
El treball computacional per a la difusió del sistema MultiMeteo al basc ha estat desenvolupat pel grup IXA i el treball terminològic ha estat realitzat per UZEI. Les adaptacions al gallec i català s'han realitzat a partir de la versió castellana, i han hagut de treballar sobretot el lèxic, ja que no es requeria grans canvis en sintaxis i morfologia. Per a l'euskara, encara que hem partit del castellà (i a vegades del francès), la majoria de les estructures de les frases han estat modificades i hem hagut de treballar especialment amb marques de declinació morfològica.
Comencem el nostre treball en tres fases:
- recollida i anàlisi del corpus del temps en basc,
- Coneixement del sistema multiMeteo i la seva arquitectura, i
- adaptació del sistema.
L'adaptació la realitzem en tres subfases: primer abordem els successos atòmics (per exemple, el “cel, cobert”), després els successos moleculars que eren fàcils (per exemple, el “vent, feble, del nord”), i finalment, els successos moleculars que presentaven especials dificultats (per exemple, el cel, inicialment cobert, amb pluja, posteriorment molt cobert temporalment).
En cadascuna de les fases d'adaptació es va realitzar una anàlisi lingüística prèvia, una anàlisi i disseny de la informació a incloure en la base de coneixement, una introducció i prova de la informació d'un exemple representatiu per a cada esdeveniment i, finalment, una introducció i prova de totes les possibilitats per a cada tipus d'esdeveniment.
Les principals característiques d'aquesta adaptació són:
- Tenint en compte que les prediccions generades pel sistema havien de seguir l'estil telegràfic de l'INM, decidim eliminar els verbs. Així mateix, els modificadors del nom que és l'àrea de la frase aniran separats per comes com a sintagma d'atributs. Per exemple, en lloc de donar “Vent del Nord feble” o “Vent del Nord i Feble”, el sistema generarà “Vent del Nord, feble”.
- Les evolucions meteorològiques expressades en francès i castellà per gerundi es realitzen d'una altra manera en basca. Per exemple, "Cel buidat en augment a nuvolós" ho crearem en basc de la següent manera: “El cel, al principi oscarbio, després ennuvolat”.
- En el diccionari hem escrit totes les formes de paraules (a vegades unitats multi-paraula) que es poden utilitzar en els butlletins. En els butlletins s'utilitzen per moments dos casos: absolut i sociativo. El lema de la paraula és també possible.
Si posteriorment es volgués ampliar el sistema amb altres estils, s'haurien d'utilitzar més casos de declinació, per la qual cosa caldria introduir aquests casos en el diccionari. Vegem, per exemple, la introducció del vocabulari de la paraula pluja:
BA_Euri1 :LexemeNomBA{
CatMorph = NOM; SsCatMorph = COMMUN; UMorph=
[ morpho{Cas= ABS;
Nom= SINGULIER;UMG= "euria"},
morpho}=
Phuns;
- La zona de la frase, per defecte, tindrà el cas de la declinació absoluta, i el cas dels modificadors de la zona es determinarà en la definició del concepte o terme. Per exemple, el concepte que crea "El cel, cobert, amb pluja" ha de precisar que el terme cobrir ocuparà l'absolutivo singular i la pluja sociativa singular. En l'absolutivo singular apareix el terme zeru perquè és l'espai de l'oració.
- En basc, el cas de declinació del sintagma s'adhereix a l'última paraula de cada sintagma, i el sistema no donava l'oportunitat de gestionar-lo de manera elegant. Per això, hem hagut d'afegir una sèrie de regles: d'una banda, a nivell conceptual, el sistema pega la marca de cas a totes les paraules de cada sintagma, i després quan s'ordenen les paraules en l'etapa de sintaxi superficial, quitació el cas a les quals no són l'última paraula. Per exemple, per a crear la frase “El cel, cobert, amb pluges generals i tempestes”, s'indica en un concepte que tot el sintagma de pluja general i tempestes ha de portar el cas del sociativo; per a això cal marcar tots els termes amb el cas pluja (soz)+general(soz)+ekaitz(soz) ; perquè més tard els termes pluja, i general es desmarquin amb «precedint».
En la taula 3 es pot observar com s'han materialitzat diversos conceptes atòmics en basc (s'inclou la realització en castellà i francès de referència).
En la Taula 4 es pot observar l'execució de diversos conceptes moleculars. Les variables indiquen, quan s'indiquen, els valors d'aquest succés: Variables N estat dels núvols (oscarbia, sota núvol, cobert...); Variables DD direcció del vent (nord, sud-oest, etc.); Les variables FF són la força del vent (moderada, fort,...); Variables TS precipitacions (pluja, plugim...), Període PER (matins...)...
Obres de futur
tempestes amb calamarsa
Reduint a N2
Creixent/ Disminució N2
tempestes a N2
FF2 Avancez
passatger FF2
El projecte es troba actualment en les últimes fases de desenvolupament. El següent pas és una prova massiva per a analitzar possibles errors en el sistema. A continuació realitzar els canvis necessaris i l'avaluació final. No obstant això, l'adaptació realitzada està ja integrada en el sistema de l'INM i cada dia s'ofereixen les previsions meteorològiques de les comunitats de l'estat espanyol en la web http://www.inm.es/wwi/ MultiMeteo/Multimeteo.html.
A més de l'escriptura telegràfica de l'objectiu general, la realització de prediccions de propòsit especial (per a platges, muntanyencs, esquiadors...) i l'elaboració d'escriptures més riques (per exemple, la introducció de verbs amb frases completes) serien passos factibles a mitjà termini. Aquest tipus de versions completes s'han realitzat en francès i s'utilitzen en l'actualitat. De moment bastaria amb analitzar la utilitat del sistema desenvolupat per al basc, i si posteriorment es detectés la necessitat, llavors caldria abordar l'organització de les millores esmentades.