… et en travaillant sur les technologies linguistiques 20!
2022/11/11 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria
La Fondation Elhuyar fête cette année son 50e anniversaire, mais elle fête également 20 ans depuis que nous avons lancé à Elhuyar la recherche, le développement et la commercialisation des technologies linguistiques. 20 ans, avec la seule intention et le seul but de développer et de mettre à la disposition de la société les technologies linguistiques et de la parole, aussi nécessaires que toute autre langue. Le fruit de cette activité sont, entre autres, nos corpus, dictionnaires, correcteurs, traducteurs automatiques (123.eus), transcripteurs automatiques (Jakin.eus) ou synthétiseurs de discours qui sont devenus indispensables pour beaucoup et très connus.
L’année 2002 a marqué une étape importante pour Elhuyar. Le passage de l'association culturelle qui a donné la même année qu'elle a accompli 30 ans à la fondation. Mais, en outre, conscient de son importance future et anticipant l'avenir, il a commencé à travailler dans le domaine des technologies linguistiques. Et il semble que l'un ne suffisait pas, et il l'a fait sur deux fronts.
Eleka et Elhuyar R&D
D'une part, la création de l'entreprise Eleka. Le groupe IXA de l'UPV/EHU effectuait depuis plusieurs années une recherche fondamentale sur les technologies de profil pour l'euskera, et avait déjà réalisé l'étiqueteur (alors Euslem, puis Eustagger), le correcteur ( Xuxen) et le traducteur automatique ( Matxin). Mais les travaux que leur mise à disposition ou commercialisation nécessitait (adaptations à différentes plates-formes, nouvelles versions, etc.) étaient en dehors des tâches habituelles d'une équipe de recherche universitaire, il n'était donc pas souhaitable et correctement réalisé. Elhuyar a montré sa volonté d'aider à combler ce vide et a ainsi été créée conjointement la société Eleka. Depuis lors, non seulement ces premiers, mais il a continué à commercialiser de nombreux autres outils fondés sur les technologies du langage et de la parole jusqu'à présent. Et avec le temps, la recherche propre d'Elhuyar s'est orientée de plus en plus vers la socialisation, en étroite et fructueuse collaboration.
En fait, un nouveau département, Elhuyar R&D, a été créé à l'intérieur d'Elhuyar, avec pour objectif la recherche et le développement des technologies linguistiques nécessaires à d'autres départements d'Elhuyar. Dans un premier temps, il a orienté son activité vers l'élaboration d'outils spécialement pour la création de dictionnaires, un département important pour Elhuyar : En 1996, il a vu clairement l'euskera - castillan/français-euskara Elhuyar Hiztegia était une référence, il a été prévu d'étendre la production de dictionnaires à plus de langues, de faire plus de dictionnaires terminologiques… Ainsi, Elhuyar R&D a commencé des travaux de compilation de corpus textuels (par exemple, corpus ZT), développé des techniques et des outils pour la compilation automatique de parallels spécialisés de différents types d'outils pour la construction parallèles de construction Comme on peut le voir, ces outils connus d'autres départements d'Elhuyar étaient une excellente vitrine et reflet de ce qu'Elhuyar R&D faisait. Mais l'activité n'a pas été limitée à cela et s'est beaucoup diversifiée au cours des 20 dernières années.
Comme dans tous les groupes de recherche, la recherche a été menée en suivant les tendances internationales dans Elhuyar R&D, en se fondant sur les dernières recherches académiques et en apportant au domaine. Ainsi, il a publié plus de 100 articles scientifiques dans des congrès ou des revues spécialisées et sept thèses de doctorat ont été réalisées au Département. Elhuyar R&D a maintenu une collaboration étroite et continue avec le groupe IXA. Et depuis plus de 15 ans, il a collaboré avec le Groupe IXA Taldea, le Groupe de recherche Aholab de l'UPV/EHU et les groupes de recherche Tecnalia et Vicomtech dans plusieurs projets de collaboration en recherche stratégique, souvent en tant que leaders.
Moment actuel des réseaux neuronaux profonds
Au cours des 20 années, les techniques utilisées dans les technologies du profil ont connu une évolution considérable. Quand nous avons commencé à cela, ils maîtrisaient les techniques appelées de règles. Dans ces cas, la connaissance de la langue (mots, règles de déclinaison…) se situait dans des langages et des structures compréhensibles pour les ordinateurs. Avec ces méthodes, certaines choses se faisaient très bien (étiquetage mentionné, correction orthographique, recherche, etc.). ), mais pas aussi bien que la traduction automatique ou la connaissance de la parole. Par la suite, des méthodes d'apprentissage automatique ou statistiques ont été mises au point pour tirer les leçons des exemples, mais elles n'ont pas non plus permis d'obtenir des résultats suffisants pour certaines tâches, du moins en euskera.
Il y a cinq ou six ans, des méthodes connues sous le nom de réseaux neuronaux profonds (Deep Neural Networks) ou des études approfondies (Deep Learning) sont apparues en scène. En fait, ils sont un cas particulier de l'apprentissage automatique, et de plus, les réseaux neuronaux existaient depuis longtemps, mais en ne donnant pas de bons résultats, ils étaient écartés. Le progrès de la technologie a permis l’utilisation de réseaux neuronaux plus grands et plus complexes (d’où le nom de « profonds »), le GPU ou les cartes graphiques ont considérablement accéléré leurs temps de conduite ou d’entraînement, et la grande avancée de la numérisation et d’Internet a fourni beaucoup plus de données pour leur entraînement et, en somme, beaucoup de tâches complexes, comme la traduction automatique ou la transcription automatique, dont le résultat a été beaucoup plus récent. Et après les tests, nous avons vu que nous avons obtenu la même chose avec l'euskera. Presque d'un jour pour l'autre, dans de nombreux travaux, les résultats sont acceptables. Enfin!
Depuis lors, nous avons développé avec succès diverses technologies pour l'euskera, que nous mettons à la disposition de la société: Le traducteur automatique 123.eus, le transcripteur automatique Jakin.eus, la synthèse personnalisée, les modèles neuronaux de langages de type BERT, les chats bots, le haut-parleur intelligent sur euskera Mycroft.eus… tous ont eu une influence notable sur la société basque et sur la situation numérique de l'euskera, et probablement plus intense à l'avenir.
L'avenir est Orai
Avec l'explosion provoquée par les réseaux neuronaux profonds, l'activité d'Elhuyar dans les technologies du langage et de la parole et l'équipe de travail, qui regroupent des personnes consacrées à la recherche et au développement d'outils et de services, a connu une croissance importante.
Et cette année, 2022, si significative pour Elhuyar, nous avons fait un autre saut significatif: Le département de R&D d'Elhuyar compte désormais de nouveaux noms et marques, les technologies Orai NLP. Mais c'est plus qu'un simple changement de nom, l'être a également changé. Sans abandonner le travail de création des ressources et des outils linguistiques nécessaires à l'euskera, on entend accroître l'effort dans l'application du potentiel de l'intelligence artificielle et des technologies du profil aux entreprises basques, par la réalisation d'une recherche sur mesure et en contribuant à rendre celles-ci plus compétitives et à surmonter les barrières linguistiques. De plus, il s'agit d'approfondir la voie déjà engagée pour être un véhicule de démonstration et d'accompagnement pour les autres langues minoritaires, et, comme nous avons développé des traducteurs automatiques et synthétiseurs de discours pour les membres occitans et aragonais, on veut continuer à développer des outils pour eux ou pour d'autres langues minoritaires. Comme le montre la devise de l'anniversaire d'Elhuyar, 50 ans plus tard à Orai, nous regardons pour que la société basque, l'euskera et d'autres petites langues aient un avenir lumineux.
Elhuyar a toujours su, attentif à l'évolution de la société, gagner de nouveaux espaces pour l'euskera et répondre aux nouveaux besoins de l'euskera. Il y a 20 ans, il a montré un fort instinct d’avenir pour faire un pas ferme et résolu en faveur des technologies du langage et, par la foi ou par la générosité, il a maintenu son pari tout au long de ces années (bien qu’il s’agisse d’années d’un véritable désert : crise, promesses de bons résultats qui n’étaient pas accomplies dans la traduction automatique et d’autres tâches…). Nous recevons les fruits, et nous-mêmes nous réjouissons, parce que chez Elhuyar nous faisons beaucoup de choses intéressantes et étonnantes, mais aussi l'euskera, qui acquiert des outils pour ne pas rester en arrière dans le monde numérique actuel et futur, et si vous me permettez l'audace, et cela écrit ces lignes, parce que depuis presque tout d'abord j'ai eu le privilège et l'honneur de travailler dans le groupe de R&D'apprentissage linguistique. Par conséquent, félicitations et merci, Elhuyar! Et félicitations aussi a Ori et au groupe des technologies de profil, et pour de nombreuses années!
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia