CONTRAINTES DAPPLICATION DES RESEAUX DE NEURONES
AU TRAITEMENT DU LANGAGE NATUREL
Riad Bourbia, M.T. Laskri
Groupe de Recherche en Intelligence Artificielle
Institut dInformatique - Université Annaba B.P. 12 Annaba 23000 - Algérie
Tel & Fax : (213) 8 87 28 12 / Email : Laskri@ist.Cerist.dz
Abstract
Lately, connectionist techniques have received increased attention because of their attractive properties including noise resistance, learning and generalizing. Its the reason why there has been increasing interest in applying connectionist approaches in natural language analysis. However there are significant problems when treating NLP. One of the aspects of language processing that has been problematic for the connectionist community is that natural language is recursive and it requiers complex structures. Another problem was the dificulties to represent information so sufficiently in order to allow abstraction. Our goal is to study the applicability of such methods to NLP. To do that, it was necessary :
∑
desengage the essential caracteristicses to a representation of language.∑
clarify the architectural constraints that these caracteristicses imply at neural network level.∑
verify the adequacy of various types of connectionist techniques representations to these caracteristicses.1. Introduction
Lapproche utilisant les réseaux neur-mimétiques tente dimiter la structure connexionniste du système nerveux. Leur caractéristique fondamentale réside dans le fait que les fonctions de mémoire et de traitement y sont intimement liées, cela est à linstar du cerveau autorise un certain flou et des imprécisions qui naffectent pas la fiabilité de lensemble doù une sûreté de fonctionnement ainsi quune grande capacité dadaptation, dapprentissage et de tolérance aux pannes. Il nest pas donc surprenant que les recherches en connexionnisme se soient souvent orientées vers le langage. Cependant, ces tentatives ont été fortement critiquées. Une critique ayant fortement influencé les recherches dans ce domaine soutient que les réseaux sont incapables par leur nature de représenter les structures essentielles à la cognition [2]. Cet article aurait le double effet de synthétiser les difficultés auxquelles les réseaux font face et de tirer des enseignements sur les différentes tendances actuelles.
2. Les représentations connexionnistes
Cest la faiblesses des représentations connexionnistes qui donne lieux aux controverses les plus variées. On peut constater que les premiers modèles se sont empressés de démontrer lutilité des mécanismes proprement connexionnistes en se souciant peu de la complexité de leur objet détude : le langage. On peut dégager deux caractéristiques essentielles des réseaux de neurones :
∑
Un réseau connexionniste est un assemblage de neurones et de liens, Les mécanismes qui régissent son comportement sont locaux.∑
Linformation du réseau étant disséminée dans ses diverses composantes, elle lui est globale.Lopposition entre mécanismes locaux et représentations globales est une des sources de faiblesse des réseaux de neurones. En effet, linformation dont dispose le neurone est très simple pour les besoins dun traitement du langage naturel (TLN), ceci implique que les opérations élémentaires du réseau ne manipulent pas dinformation ayant une interprétation sémantique : le réseau agit indépendamment de linterprétation que lon prête à ses états. Par le biais de larchitecture, le réseau doit donc organiser ses opérations en un comportement cohérent par rapport à la sémantique imposée. De plus les techniques de représentations de lIA, qui traitent les représentations dans leur ensemble sont difficilement réalisables dans un modèle connexionniste. Il existe cependant des modèles qui proposent dutiliser un contrôleur symbolique externe pour compléter le traitement [6]. Si ces propositions permettent dincorporer certains des avantages des modèles connexionnistes à des systèmes symboliques, elles ne sont pas une solution aux problèmes de représentation.
En effet, dans la mesure ou ces modèles sont capables de stocker des représentations complexes, ils le font en ignorant leur structure, celle-ci est réalisée à leur insu par les manipulations du contrôleur externe. Ainsi ces modèles sont susceptibles à une certaine critique : ils ne proposent pas de nouvelles approches pour traiter le langage, mais ne font aux mieux que rendre plus efficaces celles que nous connaissons déjà.
3. Critères dévaluation dune technique de représentation
Une technique de représentation est intéressante dès lors que celle-ci est suffisamment expressive. En générale, on peut caractériser une technique de représentation par :
∑
La relations quelle pose entre les objets et leurs représentations (sa sémantique). Une technique de représentation adéquate doit être complète, discriminante, concise et cohérente. Autant de caractéristiques qui demeurent difficiles à garantir dans un système connexionniste. Chose intéressante, lIA et le connexionnisme gèrent généralement linsuffisance de leurs techniques de représentations en rognant chacun sur un de ces caractéristiques. Pour caricaturer, lIA sacrifier sa complétude en ne pouvant pas représenter certains objets de son domaine (objets flous), le connexionnisme sacrifie plutôt sa discrimination en désignant deux objets proches par le même code.∑
Les opérations quelle prévoit. Lintégration des représentations doit être maintenue par les opérations et ne pas produire des représentations absurdes. Cependant, une technique de représentation dépend pour sa validité de sa règle dapprentissage, puisque cest celle-ci qui déterminera à terme les représentations construites par le réseau. Il sera donc nécessaire de sassurer de la validité de ces représentations non seulement face à des ces appris mais aussi lorsquil est confronté à des situations nouvelles.Outre ces caractéristiques générales, deux traits essentiels à la cognition que tout modèle adéquat doit posséder :
∑
Le langage est à la taille du monde quil doit exprimer. Il est donc essentiel quun modèle du TLN puisse exprimer cette diversité avec un minimum de ressources. Les modèles connexionnistes ont tendance à dupliquer leurs informations un grand nombre de fois. Comparés à ces modèles, les techniques dIA sont économes, pouvant exprimer une infinité dobjets à partir dun nombre restreint dobjet élémentaire. Cette productivité est assurée par la faculté combinatoire de ses opérations. Cependant, si on peut résoudre le problème de la taille du support, cette duplication peut être vu comme un avantage, puisquelle permet de résister aux dégradations du support.∑
La systématicité est la capacité de manipuler des représentations équivalentes de façon identique. Les techniques dIA sont systématique par définition, alors que celles des réseaux de neurones ne le sont souvent que par des artifices, et leurs cohérence est une caractéristique apprise. Pour permettre labstraction, les représentations élémentaires et complexes dun réseau de neurones doivent être de même nature et de même taille, afin dêtre confondues par les mécanismes de traitement [3]. En plus, il ne lui suffit pas de pouvoir assembler des objets en un groupe simple, elle doit aussi les structurer : reconnaître que chaque composant joue un rôle et inclure une indication de ce rôle dans la représentation.4. Classification des représentations connexionnistes
Deux termes posent une certaine confusion dans le milieu connexionniste : locale et distribuée. Intuitivement une technique de représentation est dite "locale", si elle associée une interprétation aux neurones du réseaux. Une représentation où linterprétation se fait à partir de lactivation de lensembles des neurones est appelée "distribuée". Les techniques de représentations connexionnistes, sont insuffisamment expressives, dès lors quelles sont locales. La difficulté de ces techniques et que leur sémantique est liée à la forme du réseau. Ainsi ces représentations sont limitées, que peut on dire des représentations pleinement distribuées ? En effet, la sémantique de telles représentations ne dépend pas en général de leurs substants physiques. Pour les interpréter, il est nécessaire de les considérer comme un code abstrait qui fait implicitement appel à un espace de représentation indépendant (Fig.1).
Si les caractéristiques physiques ne sont pas utiles pour étudier ces représentations, sur quoi pouvons nous nous fonder ? Une solution consiste à considérer la représentation du réseau comme un point dans un espace abstrait dont les axes sont les neurones (Fig.2).
Son utilisation est difficile dans les réseaux à couches, pour les quelles une solution artificielle a été appliquée : elle consiste à présenter simultanément au réseau lentrée au temps t, mais aussi celle au temps (t-1), (t-2). .. Cette fenêtre temporelle est obligatoirement de taille fixe, ce qui entraîne des difficultés évidentes en TLN, mais aussi pour le traitement de formes dilatées ou décalées (en parole). Ce problème a été partiellement résolu par les TDNN " Time Delay Neural Network " grâce à un découpage en tranche de lentrée, ce choix darchitecture est justifié par le fait que la position absolue dun événement nest pas aussi importante que son contexte. Dautre modèles proposent des solutions pour cette mémoire contextuelle: soit par lajout dune variable pour lactivité passée dans chaque unité, soit par la modification rapide des poids synaptiques, cependant ceux-ci sont en général insuffisantes.
Ces contraintes montrent que peu de réseaux sont capables à la fois dune mémoire contextuelle et dun comportement complexe. Parmi ces candidats possibles, les RRC " Réseaux Récurrents à Couches " avec des règles dapprentissage sophistiquées sont les plus utilisés.
6. Structure et apprentissage
Les réseaux ont la réputation de développer des représentations statistiques. Or, pour traiter le langage naturel, les représentations statistiques sont insuffisantes, les opérations dabstraction et référence que lon sait indispensable nont aucun sens dans un contexte purement statistique. Les RRC ont en principe la capacité de développer des représentations structurées, faisant référence à des objets abstraits qui ne font pas explicitement partie du domaine, mais qui lui permette den décrire les régularités. Mais comment distinguer les réseaux ayant appris une représentation structurée des autres ? Une stratégie dapprentissage fondée sur une représentation structurée donnera lieu à des comportements caractéristiques ainsi elle habitera un espace détats plus élaboré où les régions correspondent à des caractéristiques plus abstraites du domaine. Lemploi dune structure puissante permet des descriptions utiles et concises de la langue, cependant lacquisition dune telle représentation requiert lassimilation des régularités implicites au domaine lors de lapprentissage, ce qui est un problème de taille. Certains auteurs [4] avancent des arguments contre la possibilité de lapprentissage du langage sans connaissances initiales.
7.Conclusion
En effet, parmi le foisonnement de modèles récents, peu de réseaux possèdent à la fois une capacité expressive et une mémoire suffisante pour le TLN. Ces modèles sont nouveaux, et leurs caractéristiques exactes peu connues. Ils se prêtent mal aux techniques de formalisations [2], il devient alors nécessaire de les soumettre à des tests empiriques, dont lobjet est à la fois déterminer leurs capacités dapprentissage et de relever les traits communs des représentations quils développent quand ils sont exposés à des énoncés du langage naturel. Quelques voies sont alors ouvertes : approfondir les recherches sur les représentations connexionnistes, aborder des tâches plus représentatives du langage, réalisation de modèles hybrides et propositions de systèmes ouverts.
Références
[1] Chan, S.W.K., Franklin, J. (1994). A neural network model for acquisition of semantic structures, International symposium on speech, image processing and neural networks, 13-14 april 1994, Hong kong.
[2] Fodor, J., Mclanghlin, B.P. (1990). Connectionism and the problem of the systematicity : why smolenskys solution doesnt work, cognition 35, pp. 183-204.
[3] Joduin, J.F. (1993). Réseaux de neurones et traitement du langage naturel : étude des réseaux récurrents et leurs représentations, thèse de doctorat 3ème cycle, Univ. Paris XI, Orsay 1993.
[4] Roques, M. (1993). Apprentissage et reconnaissance de structures syntaxiques par une approche connexionniste, thèse de doctorat 3ème cycle, Univ. Paris XI, Orsay 1993.
[5] Tan, C.L., Quah, T.S., Teh, H.H. (1996). An artificial neural network that models human, IEEE, 1996.
[6] Wermter, S. (1992). A hybrid and connectionist architecture for a SCANing understanding, ECAI 92, pp. 188-192.