Première version sur Internet du Corpus de Science et Technologie
2006/12/01 Gurrutxaga Hernaiz, Antton - Elhuyar Hizkuntza Zerbitzuak Iturria: Elhuyar aldizkaria
Pour alimenter le corpus, on a tenu compte des œuvres de science et de technologie publiées entre 1990 et 2002. Le corpus est classé par domaine (domaine de la connaissance) et par genre.
Le corpus est étiqueté, tant en ce qui concerne la structure et le format du texte qu'au niveau linguistique. L'étiquetage linguistique a été réalisé grâce à la technologie avancée de traitement automatique de l'euskera (étiqueteur Eustagger du groupe IXA). Le slogan et la catégorie/sous-catégorie de chaque mot du texte sont marqués. Dans cette version du corpus, il y a 8 millions de mots, dont 1,6 millions ont été révisés, dérangés et corrigés manuellement. Le corpus est étiqueté en XML et la norme TEI a été suivie.
Une puissante interface de requête du corpus a été organisée, dans laquelle l'utilisateur pourra effectuer des recherches simples et complexes de toutes sortes, en utilisant pour cela un vaste ensemble de paramètres: devise, forme de texte, catégorie, champ, genre, section de corpus (manuel corrigé/corpus complet...). Les résultats peuvent être de deux types. D'une part, les contextes courts (KWIC) et les contextes étendus de l'objet d'étude, et d'autre part, l'information quantitative, exprimée en tableaux et graphiques (fréquences, publications, distribution par domaines ou genres, etc. ).
Le corpus sera disponible sur www.ztcorpusa.net. En outre, à partir de 2007, il sera disponible parmi les ressources de l'OCDE pour son exploitation commerciale par licence.
Les textes introduits dans cette première version du corpus ont été recueillis en format numérique par différents fournisseurs grâce aux accords signés avec eux. A tous également nos sincères remerciements.
Le projet Corpus de science et technologie a commencé à se développer dans le projet de recherche stratégique Hizking21. Le projet Hizking21 a reçu les aides suivantes: Programme Etortek du Département d'Industrie du Gouvernement Basque (2002-2004) et Programme Gipuzkoako Zientzia, Teknologia eta Berrikuntza Sarea de la Députation Forale de Gipuzkoa (2004). D'autre part, le Corpus de Science et Technologie a compté avec la collaboration du Département de Culture du Gouvernement Basque dans le programme Euskara et Nouvelles Technologies 2005.