Orai présente un nouveau modèle neuronal pour l'intelligence artificielle en basque
2024/09/12 Elhuyar Zientzia Iturria: Elhuyar aldizkaria
Orai, le centre de recherche d'IA d'Elhuyar, a développé le modèle neuronal libre le plus récent pour les systèmes d'IA qui exigent la compréhension et la création de l'euskera écrit. Baptisé de eus-8B, il sera utilisé pour le développement de chatbots, traducteurs automatiques, correcteurs grammaticaux, moteurs de recherche, systèmes de création de contenu...
Comme l'ont confirmé les chercheurs d'Oraiko, c'est le modèle le plus avancé pour l'euskera dans le domaine du modèle de fondation léger, avec moins de 10 milliards de paramètres. En outre, dans le but de faciliter le développement et la recherche des technologies en euskera aussi bien dans le domaine universitaire que dans celui de l'industrie, l'accès à l'information sur le développement et l'évaluation des technologies en euskera a été libre pour les citoyens.
Comme vous l'avez précisé, pour le développement de la variante eus-8B, le modèle de base le plus récent de Meta 3.1-8B (c'est le modèle open source de 8 milliards de paramètres) a été utilisé comme modèle de base. Ce modèle linguistique neuronal a été créé à travers des algorithmes d'apprentissage automatique utilisant une grande collection de textes (15 milliards de mots), la plupart en anglais, et est très efficace dans cette langue (et dans d'autres langues principales) pour automatiser des tâches qui nécessitent des compétences linguistiques (traduction automatique, résumé automatique, génération de contenu, systèmes de dialogue…). Cependant, les performances en euskera sont très limitées.
Comme il n'y a pas de collection de textes en euskera géant et que les exigences informatiques pour former à partir de zéro un modèle semblable pour l'euskera sont très grandes, ils ont décidé de partir de la Base 3.1-8B, car il a une base solide. L'objectif a été de transférer à l'euskera les compétences acquises de millions de textes en anglais par des algorithmes d'apprentissage automatique et l'utilisation d'une collection de textes en euskera.
Pour ce faire, ils ont utilisé le corpus Zelai repris il y a quelques mois par Orai, le plus grand corpus en euskera sous licence libre et de haute qualité. Afin d'améliorer le transfert des compétences entre l'anglais et l'basque, les textes du Grand Champ ont été combinés avec des textes en anglais. De cette façon, les modèles ont réussi à maintenir la connaissance de l’anglais et, en même temps, à améliorer la compréhension de l’euskera, en réutilisant efficacement ce qu’ils ont appris pour l’anglais lors de l’entraînement d’origine ». La formation du modèle a été réalisée à l'aide du système Hyperion du centre de supercalcul de Donostia International Physics Center (DIPC).
Le modèle a été évalué dans un vaste banc d'essai comprenant 11 tâches en basque, dans lesquelles ils ont utilisé les compétences linguistiques formelles (utilisation correcte de la grammaire et du dictionnaire) et fonctionnelles (capacité de compréhension et d'utilisation de la langue dans des contextes réels): examens scolaires, résolution de problèmes, questionnaires sur divers sujets, analyse d'opinion, etc.
Les résultats de l’évaluation montrent que le modèle de gestion en basque le plus léger actuellement disponible est celui qui fournit les meilleurs résultats (moins de 10 milliards de paramètres), constituant ainsi une ressource précieuse pour le développement de systèmes d’intelligence artificielle nécessitant des compétences linguistiques en basque. Dans certaines tâches, il donne des résultats plus compétitifs que les modèles beaucoup plus grands. Quoi qu'il en soit, bien que les résultats soient de plus en plus proches de ceux de l'anglais, les performances en basque restent bien inférieures à celles de l'anglais.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia