Sommaire des JADT 1998   

CONTRAINTES D’APPLICATION DES RESEAUX DE NEURONES

AU TRAITEMENT DU LANGAGE NATUREL

 

Riad Bourbia, M.T. Laskri

Groupe de Recherche en Intelligence Artificielle

Institut d’Informatique - Université Annaba B.P. 12 Annaba 23000 - Algérie

Tel & Fax : (213) 8 87 28 12 / Email : Laskri@ist.Cerist.dz

Abstract

Lately, connectionist techniques have received increased attention because of their attractive properties including noise resistance, learning and generalizing. It’s the reason why there has been increasing interest in applying connectionist approaches in natural language analysis. However there are significant problems when treating NLP. One of the aspects of language processing that has been problematic for the connectionist community is that natural language is recursive and it requiers complex structures. Another problem was the dificulties to represent information so sufficiently in order to allow abstraction. Our goal is to study the applicability of such methods to NLP. To do that, it was necessary :

desengage the essential caracteristicses to a representation of language.

clarify the architectural constraints that these caracteristicses imply at neural network level.

verify the adequacy of various types of connectionist techniques representations to these caracteristicses.

1. Introduction

L’approche utilisant les réseaux neur-mimétiques tente d’imiter la structure connexionniste du système nerveux. Leur caractéristique fondamentale réside dans le fait que les fonctions de mémoire et de traitement y sont intimement liées, cela est à l’instar du cerveau autorise un certain flou et des imprécisions qui n’affectent pas la fiabilité de l’ensemble d’où une sûreté de fonctionnement ainsi qu’une grande capacité d’adaptation, d’apprentissage et de tolérance aux pannes. Il n’est pas donc surprenant que les recherches en connexionnisme se soient souvent orientées vers le langage. Cependant, ces tentatives ont été fortement critiquées. Une critique ayant fortement influencé les recherches dans ce domaine soutient que les réseaux sont incapables par leur nature de représenter les structures essentielles à la cognition [2]. Cet article aurait le double effet de synthétiser les difficultés auxquelles les réseaux font face et de tirer des enseignements sur les différentes tendances actuelles.

2. Les représentations connexionnistes

C’est la faiblesses des représentations connexionnistes qui donne lieux aux controverses les plus variées. On peut constater que les premiers modèles se sont empressés de démontrer l’utilité des mécanismes proprement connexionnistes en se souciant peu de la complexité de leur objet d’étude : le langage. On peut dégager deux caractéristiques essentielles des réseaux de neurones :

Un réseau connexionniste est un assemblage de neurones et de liens, Les mécanismes qui régissent son comportement sont locaux.

L’information du réseau étant disséminée dans ses diverses composantes, elle lui est globale.

L’opposition entre mécanismes locaux et représentations globales est une des sources de faiblesse des réseaux de neurones. En effet, l’information dont dispose le neurone est très simple pour les besoins d’un traitement du langage naturel (TLN), ceci implique que les opérations élémentaires du réseau ne manipulent pas d’information ayant une interprétation sémantique : le réseau agit indépendamment de l’interprétation que l’on prête à ses états. Par le biais de l’architecture, le réseau doit donc organiser ses opérations en un comportement cohérent par rapport à la sémantique imposée. De plus les techniques de représentations de l’IA, qui traitent les représentations dans leur ensemble sont difficilement réalisables dans un modèle connexionniste. Il existe cependant des modèles qui proposent d’utiliser un contrôleur symbolique externe pour compléter le traitement [6]. Si ces propositions permettent d’incorporer certains des avantages des modèles connexionnistes à des systèmes symboliques, elles ne sont pas une solution aux problèmes de représentation.

En effet, dans la mesure ou ces modèles sont capables de stocker des représentations complexes, ils le font en ignorant leur structure, celle-ci est réalisée à leur insu par les manipulations du contrôleur externe. Ainsi ces modèles sont susceptibles à une certaine critique : ils ne proposent pas de nouvelles approches pour traiter le langage, mais ne font aux mieux que rendre plus efficaces celles que nous connaissons déjà.

3. Critères d’évaluation d’une technique de représentation

Une technique de représentation est intéressante dès lors que celle-ci est suffisamment expressive. En générale, on peut caractériser une technique de représentation par :

La relations qu’elle pose entre les objets et leurs représentations (sa sémantique). Une technique de représentation adéquate doit être complète, discriminante, concise et cohérente. Autant de caractéristiques qui demeurent difficiles à garantir dans un système connexionniste. Chose intéressante, l’IA et le connexionnisme gèrent généralement l’insuffisance de leurs techniques de représentations en rognant chacun sur un de ces caractéristiques. Pour caricaturer, l’IA sacrifier sa complétude en ne pouvant pas représenter certains objets de son domaine (objets flous), le connexionnisme sacrifie plutôt sa discrimination en désignant deux objets proches par le même code.

Les opérations qu’elle prévoit. L’intégration des représentations doit être maintenue par les opérations et ne pas produire des représentations absurdes. Cependant, une technique de représentation dépend pour sa validité de sa règle d’apprentissage, puisque c’est celle-ci qui déterminera à terme les représentations construites par le réseau. Il sera donc nécessaire de s’assurer de la validité de ces représentations non seulement face à des ces appris mais aussi lorsqu’il est confronté à des situations nouvelles.

Outre ces caractéristiques générales, deux traits essentiels à la cognition que tout modèle adéquat doit posséder :

Le langage est à la taille du monde qu’il doit exprimer. Il est donc essentiel qu’un modèle du TLN puisse exprimer cette diversité avec un minimum de ressources. Les modèles connexionnistes ont tendance à dupliquer leurs informations un grand nombre de fois. Comparés à ces modèles, les techniques d’IA sont économes, pouvant exprimer une infinité d’objets à partir d’un nombre restreint d’objet élémentaire. Cette productivité est assurée par la faculté combinatoire de ses opérations. Cependant, si on peut résoudre le problème de la taille du support, cette duplication peut être vu comme un avantage, puisqu’elle permet de résister aux dégradations du support.

La systématicité est la capacité de manipuler des représentations équivalentes de façon identique. Les techniques d’IA sont systématique par définition, alors que celles des réseaux de neurones ne le sont souvent que par des artifices, et leurs cohérence est une caractéristique apprise. Pour permettre l’abstraction, les représentations élémentaires et complexes d’un réseau de neurones doivent être de même nature et de même taille, afin d’être confondues par les mécanismes de traitement [3]. En plus, il ne lui suffit pas de pouvoir assembler des objets en un groupe simple, elle doit aussi les structurer : reconnaître que chaque composant joue un rôle et inclure une indication de ce rôle dans la représentation.

4. Classification des représentations connexionnistes

Deux termes posent une certaine confusion dans le milieu connexionniste : locale et distribuée. Intuitivement une technique de représentation est dite "locale", si elle associée une interprétation aux neurones du réseaux. Une représentation où l’interprétation se fait à partir de l’activation de l’ensembles des neurones est appelée "distribuée". Les techniques de représentations connexionnistes, sont insuffisamment expressives, dès lors qu’elles sont locales. La difficulté de ces techniques et que leur sémantique est liée à la forme du réseau. Ainsi ces représentations sont limitées, que peut on dire des représentations pleinement distribuées ? En effet, la sémantique de telles représentations ne dépend pas en général de leurs substants physiques. Pour les interpréter, il est nécessaire de les considérer comme un code abstrait qui fait implicitement appel à un espace de représentation indépendant (Fig.1).

Si les caractéristiques physiques ne sont pas utiles pour étudier ces représentations, sur quoi pouvons nous nous fonder ? Une solution consiste à considérer la représentation du réseau comme un point dans un espace abstrait dont les axes sont les neurones (Fig.2).

Son utilisation est difficile dans les réseaux à couches, pour les quelles une solution artificielle a été appliquée : elle consiste à présenter simultanément au réseau l’entrée au temps t, mais aussi celle au temps (t-1), (t-2). .. Cette fenêtre temporelle est obligatoirement de taille fixe, ce qui entraîne des difficultés évidentes en TLN, mais aussi pour le traitement de formes dilatées ou décalées (en parole). Ce problème a été partiellement résolu par les TDNN " Time Delay Neural Network " grâce à un découpage en tranche de l’entrée, ce choix d’architecture est justifié par le fait que la position absolue d’un événement n’est pas aussi importante que son contexte. D’autre modèles proposent des solutions pour cette mémoire contextuelle: soit par l’ajout d’une variable pour l’activité passée dans chaque unité, soit par la modification rapide des poids synaptiques, cependant ceux-ci sont en général insuffisantes.

Ces contraintes montrent que peu de réseaux sont capables à la fois d’une mémoire contextuelle et d’un comportement complexe. Parmi ces candidats possibles, les RRC " Réseaux Récurrents à Couches " avec des règles d’apprentissage sophistiquées sont les plus utilisés.

 

 

6. Structure et apprentissage

Les réseaux ont la réputation de développer des représentations statistiques. Or, pour traiter le langage naturel, les représentations statistiques sont insuffisantes, les opérations d’abstraction et référence que l’on sait indispensable n’ont aucun sens dans un contexte purement statistique. Les RRC ont en principe la capacité de développer des représentations structurées, faisant référence à des objets abstraits qui ne font pas explicitement partie du domaine, mais qui lui permette d’en décrire les régularités. Mais comment distinguer les réseaux ayant appris une représentation structurée des autres ? Une stratégie d’apprentissage fondée sur une représentation structurée donnera lieu à des comportements caractéristiques ainsi elle habitera un espace d’états plus élaboré où les régions correspondent à des caractéristiques plus abstraites du domaine. L’emploi d’une structure puissante permet des descriptions utiles et concises de la langue, cependant l’acquisition d’une telle représentation requiert l’assimilation des régularités implicites au domaine lors de l’apprentissage, ce qui est un problème de taille. Certains auteurs [4] avancent des arguments contre la possibilité de l’apprentissage du langage sans connaissances initiales.

7.Conclusion

En effet, parmi le foisonnement de modèles récents, peu de réseaux possèdent à la fois une capacité expressive et une mémoire suffisante pour le TLN. Ces modèles sont nouveaux, et leurs caractéristiques exactes peu connues. Ils se prêtent mal aux techniques de formalisations [2], il devient alors nécessaire de les soumettre à des tests empiriques, dont l’objet est à la fois déterminer leurs capacités d’apprentissage et de relever les traits communs des représentations qu’ils développent quand ils sont exposés à des énoncés du langage naturel. Quelques voies sont alors ouvertes : approfondir les recherches sur les représentations connexionnistes, aborder des tâches plus représentatives du langage, réalisation de modèles hybrides et propositions de systèmes ouverts.

Références

[1] Chan, S.W.K., Franklin, J. (1994). A neural network model for acquisition of semantic structures, International symposium on speech, image processing and neural networks, 13-14 april 1994, Hong kong.

[2] Fodor, J., Mclanghlin, B.P. (1990). Connectionism and the problem of the systematicity : why smolensky’s solution doesn’t work, cognition 35, pp. 183-204.

[3] Joduin, J.F. (1993). Réseaux de neurones et traitement du langage naturel : étude des réseaux récurrents et leurs représentations, thèse de doctorat 3ème cycle, Univ. Paris XI, Orsay 1993.

[4] Roques, M. (1993). Apprentissage et reconnaissance de structures syntaxiques par une approche connexionniste, thèse de doctorat 3ème cycle, Univ. Paris XI, Orsay 1993.

[5] Tan, C.L., Quah, T.S., Teh, H.H. (1996). An artificial neural network that models human, IEEE, 1996.

[6] Wermter, S. (1992). A hybrid and connectionist architecture for a SCANing understanding, ECAI 92, pp. 188-192.

Sommaire des JADT 1998