}

La taille importe : grandes collections de textes, nécessaires au traitement du langage

2009/11/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria

Depuis le début des tentatives d'enseigner les langues aux machines, des approches intuitives et simplifiantes ont été utilisées. Les connaissances linguistiques des linguistes passaient à des structures que les machines comprenaient avec l'aide des informaticiens, et à travers elles c'était la langue. Cependant, ces dernières années, les techniques basées sur de grands corpus et sur des méthodes purement statistiques sont de plus en plus nombreuses.
La taille importe : grandes collections de textes, nécessaires au traitement du langage
01/11/2009 Leturia Azkarate, Igor Informatique et chercheur
(Photo: Guillermo Roa)

Le traitement du langage existe presque depuis la création d'ordinateurs. Les premières machines électroniques programmables créées dans les années 40 du siècle dernier, en raison de la Seconde Guerre mondiale, ont été principalement utilisés pour déchiffrer les messages et briser les codes, mais, après la guerre, il a commencé à travailler beaucoup sur le traitement de la langue, en particulier dans le domaine de la traduction automatique.

À ces débuts, surtout les mathématiciens, ils utilisaient des techniques très simples, influencées par les mœurs de la cryptographie: ils visaient essentiellement à obtenir la traduction automatique à travers les dictionnaires et les modifications de l'ordre des mots. Mais ils ont vite réalisé que les langues étaient plus que cela, et qu'il fallait utiliser des modèles linguistiques plus complexes. Ainsi, des linguistes ont été incorporés aux groupes et appliquant les théories de Saussure et Chomsky. Depuis lors, et pendant des décennies, dans tous les domaines du traitement du langage (morphologie, correction orthographique, syntaxe, déviation des significations...), une approche a prédominé: l'adaptation de la connaissance basée sur l'intuition des linguistes à des structures simples qui peuvent être traitées par les ordinateurs (règles, arbres, graphes, langages de programmation...).

Mais ces méthodes ont aussi leurs limites. D'une part, les meilleurs linguistes ne peuvent pas tenir compte de toute la casuistique qu'offre une langue; d'autre part, les langues ont une grande complexité et richesse pour s'exprimer par des structures simples. Ces limitations sont encore plus importantes dans le langage de conversation. Cependant, il n'y avait pas d'autre voie ; compte tenu de la capacité des machines de l'époque, c'était la seule manière de parler au langage. Et avec ces techniques, le progrès a été relativement lent pendant de nombreuses années.

Arrivée de corpus et statistique

Cependant, au cours des deux dernières décennies, une approche plus empirique domine le traitement du langage, basé sur l'exploitation de grandes collections de textes et de méthodes statistiques. Au lieu de se fonder sur la connaissance intuitive, on utilise de grands échantillons linguistiques réels, c'est-à-dire corpus, pour tenir compte du plus grand nombre de cas possibles de la langue. Et sur eux on utilise des méthodes comme la statistique ou l'apprentissage automatique, avec peu de techniques linguistiques. Même dans les cas où l'on essaie de modéliser la langue par des structures informatiques, on extrait automatiquement les modèles des corpus. C'est pourquoi, en travaillant avec des méthodes statistiques, pour qu'une machine puisse parler, elle doit avoir accès à une énorme collection de textes et à des ressources pour travailler avec elle.

Ce changement méthodologique est principalement dû à deux facteurs. D'une part, les ordinateurs actuels, contrairement aux précédents, ont la capacité de gérer des quantités énormes de données. D'autre part, plus de textes sont disponibles en format électronique que jamais, surtout depuis la création d'Internet.

Ainsi, on utilise du corpus et des techniques statistiques dans les correcteurs orthographiques (à la recherche de contextes similaires au mot incorrect en corpus), dans la traduction automatique (en utilisant des mémoires de traduction ou des textes de sites Web multilingues pour obtenir statistiquement des traductions de mots, syntagmes ou phrases aussi grandes que possible), dans la désambiguation des sens, dans l'extraction terminologique automatique, etc. Et en général, on peut dire que plus les corpus sont grands, plus les systèmes obtiennent de meilleurs résultats. Par exemple, Franz Joseph Och de Google a présenté au congrès de l'ACL (Association for Computational Linguistics) de 2005 son système de traduction automatique statistique, formé sur un corpus de 200.000 millions de mots. Et depuis lors, votre système est la principale référence dans la traduction automatique et celui qui gagne tous les concours. Quelque chose de semblable se produit dans d'autres domaines.

(Photo: iStockphoto.com/chieferu)

Avenir, hybridation

Cependant, cette méthodologie a également des limitations. Dans certaines langues et tâches sont déjà utilisés corpus vraiment gigantesques, et on peut dire qu'ils ont déjà atteint la cote supérieure, car ils sont très difficiles à continuer à améliorer beaucoup plus les résultats obtenus. Dans d'autres langues et domaines il n'y a pas de corpus aussi grand, et avec des méthodes exclusivement statistiques on ne peut pas obtenir des résultats aussi bons.

Par conséquent, la tendance récente à améliorer les méthodes statistiques est de les combiner avec les techniques linguistiques et de créer des méthodes hybrides. Et à l'avenir, ce sera la voie pour avancer dans le traitement du langage. Si nous voulons que les machines comprennent et traitent le langage bientôt, et que nous voulons que les machines parlent, il faudra que les mathématiciens, informaticiens et linguistes aillent de pair.

Adam Kilgarriff: "Les bases de données géantes à texte peuvent être collectées avec une relative facilité"
L'utilisation des corpus dans le traitement du langage a été une révolution ces dernières années, et certainement l'anglais Adam Kilgarriff en a été témoin. Il a travaillé pendant des années avec le corpus en anglais, et est aujourd'hui une référence dans l'utilisation de l'internet comme corpus. Sketch Engine (www.sketchengine.co.uk) est l'un des fondateurs de l'outil qui sert à travailler sur cette ligne. Il a participé au congrès SEPLN 2009 sur le traitement du langage organisé par le groupe IXA de l'UPV à Donostia.
Quelles sont les principales difficultés pour qu'une machine puisse parler ?
Il y en a beaucoup. L'homme sait beaucoup de choses. Depuis que nous sommes nés, nous apprenons, voyons, percevons... nous avons beaucoup de sagesse dans la tête et nous savons quelle est la relation entre les idées. La recherche de 50 ans ne suffit pas pour que l'intelligence artificielle puisse faire de même. Nous avons toutes les données dans la tête. D'où la plus grande difficulté que les machines ont à parler: nous n'avons pas encore réussi à faire beaucoup de matériaux utiles à l'ordinateur.
D'autre part, nous avons beaucoup de problèmes liés à la langue. Il existe de nombreuses façons de dire quoi que ce soit, et pour les ordinateurs, il est très difficile de comprendre que deux phrases expriment la même idée. Vous ne comprendrez pas que les phrases "Cet endroit est merveilleux" et "Voici une belle plage" expriment fondamentalement la même idée. Sinon, une seule phrase peut avoir plus d'un sens. L'expression "J'ai vu une souris" a une signification différente dans le Palais Miramar ou dans un laboratoire de biologie.
Ce sont les principaux problèmes généraux (mais il ya beaucoup d'autres petits).
(Photo: Guillermo Roa)
Est-il nécessaire d'utiliser l'intelligence artificielle dans le traitement du langage?
L'apprentissage automatique est utilisé pour de plus en plus de choses dans le traitement du langage. Mais l'intelligence artificielle n'est pas seulement une chose, mais de nombreuses stratégies ont été développées dans différents domaines. L'approche qui m'intéresse pour le traitement de la langue est de trouver des modèles à partir de nombreuses données. Un enfant le fait, recherche des modèles dans les sons, les significations, la grammaire, etc. et c'est ce que crée le lexique de l'enfant. C'est notre travail. Par exemple, nous partons d'un mot et cherchons avec elle des mots qui apparaissent dans le même contexte.
L'apprentissage automatique, par exemple, permet de rechercher des modèles et de construire des connaissances par ordinateur. Il s'agit donc d'une façon d'affronter l'un des principaux problèmes du traitement du langage, c'est-à-dire de résoudre un cas où un seul mot a plus d'une signification. Ceci est possible si nous utilisons de grands corpus.
Le meilleur corpus est Internet ?
Cela dépend de l'objectif. Dans beaucoup de mes travaux, plus j'utilise de données, mieux cela fonctionne. Mais le réseau pose aussi quelques difficultés. Il y a beaucoup de spam. Par conséquent, la meilleure stratégie pour gérer ces données est celle utilisée par Google et Yahoo: collecter de nombreux sites Web et rechercher uniquement le texte pour travailler avec moins d'informations (dans un gigaoctet, il y a peu de vidéos, mais il y a beaucoup de texte). De cette façon, des bases de données géantes à texte peuvent être collectées de manière relativement simple. Actuellement, le plus grand anglais a 5,5 milliards de mots. Et de ce type, vous pouvez trouver de nombreux modèles.
Le problème est que le langage dans lequel une machine conversera ne doit pas être, par exemple, le même style que les scientifiques écrivent dans les articles. Il devrait être la langue dans laquelle nous parlons. Par conséquent, il ne sert pas pour cela un grand corpus de textes écrits dans des articles ou des journaux. Il faut un grand corpus basé sur la conversation, basé sur des chats. Mais il est difficile de recueillir ces textes et la confidentialité le rend encore plus difficile. Pour notre recherche nous recueillons des textes de blogs où l'écriture a moins de formalité.
Leturie Azkarate, Igor
Services
258 258
2009 2009 2009 2009
Résultats
020 020
Robotique robotique
Article 5 Article 1 Article 1 Article 1
Services

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia