Ne cassez pas la tête, Matxin !
2016/09/01 Iñurrieta Urmeneta, Uxoa - EHUko IXA taldeko ikertzailea | Aduriz Agirre, Itziar - EHUko IXA taldeko ikertzailea | Díaz de Ilarraza Sánchez, Arantza - EHUko IXA taldeko ikertzailea | Labaka Intxauspe, Gorka - EHUko IXA taldeko ikertzailea | Sarasola Gabiola, Kepa - EHUko IXA taldeko ikertzailea Iturria: Elhuyar aldizkaria
Pour ceux qui vivent dans des sociétés bilingues, les erreurs commises par penser à une langue et parler à une autre sont très courantes. Beaucoup d'entre nous nous rougiraient à une occasion, par exemple, quand nous étions petits à regarder des rires à nos parents, grâce à qui il nous a donné non pour cela! parce que nous lui avons répondu calmement. Avez-vous fait du mal à l'enfant qui est tombé dans la rue? Si l'on se demandait, la plupart des Basques majeurs ne nous surprendraient pas tant, parce que même si la phrase semble étrange, nous penserions tout de suite que cette personne est probablement un nouvel euskaldun. Et c'est que ceux qui parlent de plus d'une langue, nous savons, avec l'expérience, que ce que nous avons appris dans l'une d'elles ne sert pas toujours autre chose: ce n'est pas pour cela en espagnol, mais de rien; et vous avez fait du mal n'est pas une douleur en basque, mais il vous a fait du mal.
Dans ces cas, professeurs, parents ou amis nous corrigent les erreurs afin que nous apprenions quelle est la bonne forme pour la suivante. Ici aussi, nous parlerons d'élèves et d'enseignants, mais pas de toute nature. L'élève a plus de onze ans, il est appelé Matxin et n'a ni os ni chair, il est un traducteur automatique. Il utilise beaucoup de règles pour apprendre les langues et traduire en basque ce qu'il a lu en espagnol, mais souvent il lui donne des traductions qui restent en dehors de ces normes, et le travail du professeur est de l'aider à ne pas casser la tête, qui ne se trompe pas si souvent.
Matxin, traducteur
Aujourd'hui, Matxin traduit de l'espagnol à l'euskera. Il est basé sur une série de règles grammaticales et deux dictionnaires bilingues, dont il obtient des informations pour passer d'une langue à l'autre. Il développe son travail en trois phases: analyse, transfert et génération (Majeur et al., 2009).
Comme on peut le voir dans la figure 1, il analyse d'abord le texte en espagnol, ou en anglais, morphologique et syntaxique: la devise de chaque mot (par exemple: vi 8 voir), la catégorie (verbe, nom, adverbe...), la fonction syntaxique (sujet, objet direct, modificateur...) et d'autres caractéristiques. Plus tard, dans la phase de transfert, il compense les mots de la phrase originale et ajuste l'information grammaticale. Enfin, dans la phase de création, il crée le texte en basque à partir des informations obtenues dans le transfert : il crée la forme correspondant à chaque devise (par exemple : vi avec 8) et ajuste l'ordre des mots.
Cependant, toutes les traductions ne peuvent pas être traduites correctement par ces normes et dictionnaires généraux, ce qui donne des problèmes à Matxin. Voir, sinon, quelles phrases produit :
(1) FR: Eragin handia izan zuen.
EU (Matxin): Il a fourni un grand effet.
EU (correct): Il eut une grande influence.
Unités phraséologiques (UF), en dehors des normes grammaticales générales de Matxin
En fait, il y a quelques combinaisons de mots qui restent en dehors des règles générales des langues, y compris les unités phraséologiques (Gurrutxaga, 2016). Corpas (1997) et Urizer (2011), entre autres, les ont classés en trois groupes:
1. Énoncés phraséologiques: peuvent être utilisés comme tels sans entrer dans une phrase et seulement dans certaines circonstances. De ce groupe, je vous remercie beaucoup et non pas comme ça.
2. Locutions: ne sont pas des phrases complètes et la signification de la combinaison n'est pas la somme des significations des mots combinés. La signification des interventions, par exemple, ne correspond pas à ce que les mains et les commissaires ont normalement.
3. Collations: Ce ne sont pas non plus des phrases entières, au moins un des mots conserve sa signification et, pour exprimer une signification concrète, avec un mot de combinaison on utilise généralement une autre donnée, et pas d'autres équivalents. Par exemple, nous nous consacrons à l'attention et non à l'attention localisée ou similaire.
En outre, les UF varient beaucoup d'une langue à l'autre (Sanz, 2015), donc ils ne sont souvent pas faciles à traduire. Prenons comme exemple ceux mentionnés dans le classement:
• Comme nous l'avons dit précédemment, nous n'utilisons rien en espagnol et non pour cela.
• Participer c'est-à-dire, prendre part ou participer (on ne mentionne nulle part des mangues, des mains).
• Nous utilisons généralement l'attention comme contrepartie pour l'attention prêtée.
De plus, si nous apportons ce dernier exemple en français et en anglais, nous verrons que les verbes ne correspondent ni à ceux de l'euskera ni à ceux de l'espagnol : en français, faire attention (faire attention) ; et en anglais, pay attention (faire attention).
Donc, si votre apprentissage est laborieux pour l'être humain, imaginez combien il est difficile de traduire automatiquement pour un ordinateur, étant donné que les dictionnaires sur lesquels il est basé sont limités et les règles grammaticales très générales.
Dans le dictionnaire utilisé par Matxin, il existe plusieurs entrées de plusieurs mots qui donnent parfois lieu à des traductions directes:
(2) FR: Ikasle batzuk irakasle pilota egin zuten.
EU (Matxin): Certains élèves ont refusé le professeur.
(3) FR: 13:00
EU (Matxin): Je viens de faire la pierre.
Malheureusement, de nombreuses entrées ne sont pas toujours utilisées correctement. Voyons par exemple ce qui se passe si nous changeons légèrement les termes des exemples 2 et 3 :
(4) FR: Irakasle ezin zuen ikasle egiten ari ziren pilota.
EU (Matxin): Le professeur ne pouvait pas croire la balle que faisaient les élèves.
EU (correct): L'enseignant ne pouvait pas croire comment les élèves s'estompaient.
(5) FR: Je viens de frotter le sol.
EU (Matxin): Je viens de faire du sol en pierre.
EU (correct): Je viens de nettoyer le sol.
Matxin a deux difficultés principales: d'une part, connaître les UF en espagnol ou en anglais, et de l'autre, les traduire en basque. Actuellement, seules les combinaisons de mots toujours suivies et dans le même ordre sont correctement détectées, donc si nous séparons les mots de la combinaison ou les changeons de commande, ils sont traités comme des mots lâches et non comme s'ils faisaient partie d'une UF (Exemple 4). De même, pour la création de phrases en basque, il manque souvent des informations, car à chaque entrée on lui accorde un seul paiement dans le dictionnaire de Matxin. C'est pourquoi la phrase de l'exemple 5 a été traduite à tort, puisqu'on n'a pas tenu compte que le verbe frotter, quand le sol est accompagné du syntagme nominal, le nettoyer correspondant au paiement et non celui de pierre.
Konbitzul, nouveau professeur de Matxin
Par conséquent, comme le montrent les exemples jusqu'à présent, si Matxin va traduire correctement les UF, l'aide est fondamentale, et pour cela a été créé Konbitzul, l'outil qui va vous apprendre à traduire des combinaisons de noms+verbes.
Konbitzul est une base de données publique qui recueille les informations obtenues d'une analyse linguistique. Il contient des données sur les caractéristiques des combinaisons de mots avec des noms et des verbes, et leurs contreprestations, jusqu'à présent dans la paire de langues espagnol-euskera. Les combinaisons nominales+verbales de cette étude ont été regroupées en trois sources : Le dictionnaire bilingue Elhuyar, les gigantesques ensembles de traductions à la main et le dictionnaire DiCE de collations en espagnol (Alonso, 2004).
La plupart des informations travaillées sont disponibles sur Internet et ce qui manque sera également à la disposition des utilisateurs sous peu. En fait, l'interface de la base de données est de type finder et n'importe quel utilisateur peut effectuer des recherches facilement, en écrivant ce qu'il veut rechercher et en affichant une liste de combinaisons qui correspondent à l'écrit, ainsi que les paiements. Ensuite, si vous cliquez en compensation, vous pouvez voir plus d'informations linguistiques (Figure 3).
Cependant, comme nous l'avons déjà mentionné, la tâche principale de Konbitzul est d'aider Matxin à relever deux défis: d'une part, connaître les UF de la langue d'origine et de l'autre, traduire en basque. Supposons que vous donnez les phrases suivantes:
(6) Le sujet a suscité l'intérêt des auditeurs.
(7) Interes handia egin zuen gaia auditeurs.
-- --- ---- --------
L'UF – susciter l'intérêt – qui apparaît dans ces trois exemples n'est pas encore dans le dictionnaire de Matxin, de sorte qu'elle ne traite pas actuellement cette combinaison de mots comme UF (Figure 4). Cependant, même s'il était dans le dictionnaire de Matxin, avec la méthode qu'il a utilisée jusqu'ici, il ne le reconnaîtrait que dans l'exemple 6, où les deux mots apparaissent dans le même ordre et sans autres éléments.
Cependant, avec l'aide de Konbitzul vous saurez que susciter l'intérêt est une UF et qui est aussi une combinaison flexible, à savoir:
D'autres mots peuvent apparaître entre les deux composants de la combinaison.
• L'ordre des mots est variable.
Ainsi, en analysant la phrase de la langue source, on tiendra compte de toutes ces informations et on pourra savoir que dans les exemples 7 et 8 il y a aussi une UF. Une expérience montre que grâce aux informations de la base de données, on connaît presque 30% de UF de plus qu'avec la méthode précédente.
D'autre part, une fois que les combinaisons ont été détectées, il faut les apporter au basque et pour cela Matxin aura aussi besoin d'informations supplémentaires. Encore une fois, Konbitzule résoudra vos doutes:
• Par le verbe éveiller, allumer (et ne pas réveiller).
• Pour le nom d'intérêt, utilisez-le et mettez-le en limité.
Ainsi, au lieu de créer des phrases comme celle qui a suscité un grand intérêt, vous pouvez créer des phrases comme celle qui a suscité le Grand Intérêt. L'information pour cette deuxième tâche n'a pas encore été intégrée dans le système, mais l'analyse linguistique a été réalisée, il est donc logique de penser que nous pourrons bientôt voir les résultats sur le réseau.
Remplir le sac pour satisfaire la curiosité
Cependant, le travail ne s'arrête pas là, bien sûr, parce que Matxin est un étudiant très curieux. L'étape suivante consistera à recueillir des informations pour traduire les UF en anglais, et à partir de là, Konbitzule devra continuer à collecter des données pour remplir progressivement le sac, de sorte que l'élève, à mesure qu'il grandit, devient de mieux en mieux traducteur.
Bibliographie Bibliographie
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia