La taille importe : grandes collections de textes, nécessaires au traitement du langage
2009/11/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria
Le traitement du langage existe presque depuis la création d'ordinateurs. Les premières machines électroniques programmables créées dans les années 40 du siècle dernier, en raison de la Seconde Guerre mondiale, ont été principalement utilisés pour déchiffrer les messages et briser les codes, mais, après la guerre, il a commencé à travailler beaucoup sur le traitement de la langue, en particulier dans le domaine de la traduction automatique.
À ces débuts, surtout les mathématiciens, ils utilisaient des techniques très simples, influencées par les mœurs de la cryptographie: ils visaient essentiellement à obtenir la traduction automatique à travers les dictionnaires et les modifications de l'ordre des mots. Mais ils ont vite réalisé que les langues étaient plus que cela, et qu'il fallait utiliser des modèles linguistiques plus complexes. Ainsi, des linguistes ont été incorporés aux groupes et appliquant les théories de Saussure et Chomsky. Depuis lors, et pendant des décennies, dans tous les domaines du traitement du langage (morphologie, correction orthographique, syntaxe, déviation des significations...), une approche a prédominé: l'adaptation de la connaissance basée sur l'intuition des linguistes à des structures simples qui peuvent être traitées par les ordinateurs (règles, arbres, graphes, langages de programmation...).
Mais ces méthodes ont aussi leurs limites. D'une part, les meilleurs linguistes ne peuvent pas tenir compte de toute la casuistique qu'offre une langue; d'autre part, les langues ont une grande complexité et richesse pour s'exprimer par des structures simples. Ces limitations sont encore plus importantes dans le langage de conversation. Cependant, il n'y avait pas d'autre voie ; compte tenu de la capacité des machines de l'époque, c'était la seule manière de parler au langage. Et avec ces techniques, le progrès a été relativement lent pendant de nombreuses années.
Arrivée de corpus et statistique
Cependant, au cours des deux dernières décennies, une approche plus empirique domine le traitement du langage, basé sur l'exploitation de grandes collections de textes et de méthodes statistiques. Au lieu de se fonder sur la connaissance intuitive, on utilise de grands échantillons linguistiques réels, c'est-à-dire corpus, pour tenir compte du plus grand nombre de cas possibles de la langue. Et sur eux on utilise des méthodes comme la statistique ou l'apprentissage automatique, avec peu de techniques linguistiques. Même dans les cas où l'on essaie de modéliser la langue par des structures informatiques, on extrait automatiquement les modèles des corpus. C'est pourquoi, en travaillant avec des méthodes statistiques, pour qu'une machine puisse parler, elle doit avoir accès à une énorme collection de textes et à des ressources pour travailler avec elle.
Ce changement méthodologique est principalement dû à deux facteurs. D'une part, les ordinateurs actuels, contrairement aux précédents, ont la capacité de gérer des quantités énormes de données. D'autre part, plus de textes sont disponibles en format électronique que jamais, surtout depuis la création d'Internet.
Ainsi, on utilise du corpus et des techniques statistiques dans les correcteurs orthographiques (à la recherche de contextes similaires au mot incorrect en corpus), dans la traduction automatique (en utilisant des mémoires de traduction ou des textes de sites Web multilingues pour obtenir statistiquement des traductions de mots, syntagmes ou phrases aussi grandes que possible), dans la désambiguation des sens, dans l'extraction terminologique automatique, etc. Et en général, on peut dire que plus les corpus sont grands, plus les systèmes obtiennent de meilleurs résultats. Par exemple, Franz Joseph Och de Google a présenté au congrès de l'ACL (Association for Computational Linguistics) de 2005 son système de traduction automatique statistique, formé sur un corpus de 200.000 millions de mots. Et depuis lors, votre système est la principale référence dans la traduction automatique et celui qui gagne tous les concours. Quelque chose de semblable se produit dans d'autres domaines.
Avenir, hybridation
Cependant, cette méthodologie a également des limitations. Dans certaines langues et tâches sont déjà utilisés corpus vraiment gigantesques, et on peut dire qu'ils ont déjà atteint la cote supérieure, car ils sont très difficiles à continuer à améliorer beaucoup plus les résultats obtenus. Dans d'autres langues et domaines il n'y a pas de corpus aussi grand, et avec des méthodes exclusivement statistiques on ne peut pas obtenir des résultats aussi bons.
Par conséquent, la tendance récente à améliorer les méthodes statistiques est de les combiner avec les techniques linguistiques et de créer des méthodes hybrides. Et à l'avenir, ce sera la voie pour avancer dans le traitement du langage. Si nous voulons que les machines comprennent et traitent le langage bientôt, et que nous voulons que les machines parlent, il faudra que les mathématiciens, informaticiens et linguistes aillent de pair.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia