Quoi écouter, écrire
2008/03/01 Kortabitarte Egiguren, Irati - Elhuyar Zientzia Iturria: Elhuyar aldizkaria
Ces systèmes sont intégrés pour le moment principalement dans les services téléphoniques comme rendez-vous, demande de produits, demande de réservation pour spectacles, etc. Mais il y a d'autres comme la dictée automatique. Dans cette dernière, nous travaillons, entre autres, au département d'Ingénierie des Systèmes et Automatique de l'UPV/EHU.
Le traitement de la parole exige beaucoup et une bonne formation. Autrement dit, le système doit recevoir une certaine formation, ce qui est connu comme machine learning. Pour cela, il faut d'une part des fichiers, des audios et des sons de télévision et de radio, et d'autre part des textes de référence de ce qui a été dit dans ces médias. Des chercheurs de l'UPV, par exemple, utilisent fréquemment les programmes Gaur Egun et Teleberri de l'ETB pour former le système. Vous n'avez pas besoin de savoir ce qui a été dit littéralement, mais vous êtes en mesure de recueillir un résumé de ce qui a été dit. En définitive, il essaie de comprendre la relation entre les sons et les mots.
Une fois le processus d'apprentissage terminé, le système devrait être en mesure de comprendre ce qui a été dit dans n'importe quel Gaur Egun ou Teleberri. Bien que l'apprentissage soit un processus lent, une fois que le système a les règles ou les informations intériorisées, c'est-à-dire qu'il a le matériel de référence approprié, il affiche le résultat avec une certaine rapidité. Dans ce cas, texte écrit du parlé. En bref, l'objectif est d'obtenir du texte à partir d'un son ou audio.
Petit grand grand
Il est vrai que la plupart de ces applications qui peuvent être trouvés sur le marché visent les “grandes” langues, en particulier l'anglais. Cependant, des chercheurs de l'École Universitaire Polytechnique de Saint-Sébastien, en collaboration avec les groupes IXA, GTTS et Intelligence Computationnelle de l'UPV/EHU, travaillent avec le basque. La différence évidente entre ces langues 'grandes' et 'petites' réside dans le nombre de données de référence. Ce type d'outils anglais a beaucoup de données, tandis que le matériel de référence en basque est assez mineur. Par conséquent, les chercheurs recherchent de nouvelles techniques pour mieux exploiter et plus précisément ces quelques données.
Ces systèmes dépendent entièrement de la langue et chaque langue a son propre outil. Mais, par exemple, les chercheurs de l'UPV/EHU travaillent non seulement avec l'euskera, mais aussi avec l'espagnol et le français. Le programme Teleberri ou les sessions d'Infozazpi, par exemple, ont deux objectifs principaux: d'une part, ils veulent comprendre le castillan et le français - avec le basque -, et d'autre part, chercher dans ce type de systèmes les similitudes existantes entre le basque et les deux autres langues pour pouvoir améliorer la formation des outils en basque.
À cet égard, un certain nombre d'essais sont actuellement en cours, analysant la possibilité d'utiliser plusieurs langues dans un même outil. Tel est le défi futur des chercheurs de l'UPV : développer un système capable de comprendre l'euskera, l'espagnol et le français.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia