Nouveautés
Appels à communication
Comités
JADT
Soumission
Articles
Thèmes
Archives
Carnet d'adresses
Index des auteurs
La page CORPORA
JADT (1998-2008) et GADT
La page des liens
Comptes-rendus d'ouvrages
La page Forum

Accueil Contact

Benoît Habert[*], Philippe Barbaud, [**], Fernande Dupuis**, Christian Jacquemin[***]

Simplifier des arbres d'analyse pour dégager les comportements syntactico-sémantiques des formes d'un corpus

Résumé-abstract
Des groupes nominaux complexes fournis par un outil d'extraction terminologique sont simplifiés pour obtenir les arbres élémentaires montrant les relations sémantiques fondamentales d'un corpus. Ce processus d'acquisition de connaissances est testé sur un corpus médical
Complex nominal phrases provided by a terminology extraction software are simplified in order to get elementary trees giving the main semantic relationships of a corpus. This knowledge extraction process is tested on a medical corpus.

1. Mettre en évidence les comportements syntactico-sémantiques des formes d'un corpus

Notre travail est sous-tendu par une double préoccupation. Théorique : caractériser syntaxiquement et sémantiquement les dénominations complexes bien formées d'un domaine donné (Habert & Jacquemin 94). Pratique : isoler au sein des groupes nominaux d'un domaine ceux qui ont effectivement un comportement dénominatif et sont à intégrer par exemple à une base terminologique. Dans les deux cas, il importe de pouvoir associer à chaque composant des séquences examiner des informations sémantiques. Nous entendons nous appuyer au maximum sur les données fournies par un corpus pour constituer ces informations.

1.1 Classements sémantiques et sous-langages

Pour étudier les patrons syntactico-sémantiques à l'oeuvre dans un domaine donné, on peut utiliser une ontologie spécialisée, du type du Metathesaurus de l'UMLS pour le domaine médical. Comme le montre G. Grefenstette (Grefenstette 94), de telles ontologies sont souvent criticables, et ne s'utilisent pas aisément pour d'autres domaines, malgré les recherches actuelles sur les ontologies "réutilisables". Elles sont en outre coûteuses à construire.

 Une autre optique consiste à construire des classes sémantiques non pas sur la base d'une organisation conceptuelle préalable, mais de manière inductive, à partir du comportement syntaxique des formes, c'est-à-dire à partir des opérateurs qui leur sont associées. On classera ainsi bruit comme un évènement et non comme une entité concrète, à partir du moment où bruit entre dans la phrase : un bruit se produisit (Gross 94). Le degré de finesse souhaité peut varier : des classes en petit nombre comme dans les travaux de D. Godard et J. Jayez (Godard & Jayez 94, 95), ou au contraire de très nombreuses classes comme dans (Le Pesant 94).

 Cette démarche trouve ses limites quant on aborde un langage spécialisé. Hors une connaissance du domaine en cause, il est souvent impossible de savoir si une construction est "acceptable" ou non. 

1.2 L'analyse de sous-langages : la démarche harrissienne[1]

Dans la lignée des travaux de Harris, l'équipe de Naomi Sager a entrepris de développer une méthodologie de mise au jour des phrases élémentaires d'un sous-langage et des classes sémantiques qui y figurent (Sager 86; Sager et al. 87).[2] L'hypothèse est que dans un sous-langage, les restrictions de sélection sont basés en fait sur des contraintes sémantiques beaucoup plus fortes que dans la langue générale.[3]

 La première étape consiste à analyser un corpus restreint du sous-langage choisi. Chaque phrase se voit associer un arbre d'analyse. Cet arbre est ensuite simplifié pour restituer les anaphores, éliminer les coordinations, les enchâssements etc.[4] Des transformations sont appliquées pour normaliser les phrases (passage du passif à l'actif etc.).[5] Le résultat est un ensemble de phrases élémentaires.

 L'examen de ces phrases élémentaires fournit les opérateurs de base du sous-langage, et pour chaque opérateur, les classes de mots qui peuvent être en position d'arguments. Ces ensembles s'avèrent être autant de classes sémantiques.[6]

 Ces résultats : classes sémantiques et opérateurs, sont ensuite utilisés pour analyser, automatiquement[7], d'autres corpus, moins restreints, du même sous-langage. 

Cette démarche a été appliquée au discours médical (Sager et al. 87) et au discours pharmacologique.

 Nous avons utilisé la même approche. Nous nous en sommes éloignés sur deux points. D'abord, nous nous sommes limités à l'analyse de groupes nominaux. En second lieu, notre effort a porté sur la mise au point d'une chaîne automatique de traitement, à la place de l'analyse manuelle initiale opérée par N. Sager et ses collaborateurs.

1.3 La présente expérience

Dans la seconde section, nous présentons en 2.1 LEXTER, l'outil d'extraction terminologique dont nous retravaillons les analyses qu'il fournit d'une partie des groupes nominaux d'un corpus, puis nos outils pour mettre en évidence les comportements syntactico-sémantiques : simplification en arbres élémentaires (2.2), remaniement d'arbres par méta-règles (2.3).

 Nous avons testé notre démarche sur un corpus constitué par le Groupe de Travail Terminologie et Intelligence Artificielle (PRC-GDR Intelligence Artificielle, CNRS) pour comparer différentes méthodes d'extraction terminologique et de construction de bases conceptuelles et terminologiques. Ce corpus, de 20 840 occurrences, a pour unité thématique les maladies coronariennes. Il comprend des compte-rendus d'hospitalisation et des lettres de médecins aux médecins traitants après traitement hospitalier[8], ainsi qu'un extrait d'un manuel de coronarographie. Nous avons ignoré dans un premier temps la différence de genre textuel (Biber 94) entre les différentes parties du corpus.

 La section 3 montre les phénomènes dégagés par l'élimination des modifiants dans les arbres d'analyse. La section 4 examine les rapprochements entre formes qui naissent des classes d'équivalence constituées à partir des arbres élémentaires. 

La section 5 évalue l'expérience présente et indique les perspectives.

2. Simplifier, remanier et classer des arbres d'analyse

2.1 Obtention d'arbres d'analyse : LEXTER 

LEXTER (Bourigault 93, 94) a été conçu et réalisé dans un environnement industriel, la Direction des Etudes et Recherches d'Electricité de France, pour aider à la mise au point de terminologies. 

LEXTER prend en entrée des textes techniques longs (de 100 000 à 1 million de mots), préalablement étiquetés. Il commence par délimiter les groupes maximaux les plus longs possibles, sur la base de patrons morphosyntaxiques qui permettent de repérer les frontières de ces groupes nominaux. Il trie au sein de ces groupes nominaux ceux qui, en fonction de leur patron de surface et d'autres propriétés (nature des prépositions, des déterminants) peuvent constituer des entrées terminologiques. LEXTER divise chacune de ces séquences nominales en T(ête) et E(xpansion), de façon récursive. La séquence stenose severe de le tronc commun gauche est par exemple analysée comme suit :

[T [T stenose][E severe]][E de le [T [T tronc][E commun]][E gauche]]

Les accents sont enlevés par le programme d'étiquetage utilisé par LEXTER. Les mots contractés comme du sont remplacés par la séquence préposition déterminant. Ce programme remplace en outre les formes par leur lemme. Les exemples fournis dans la suite de l'article sont par conséquent lemmatisés et désaccentués. 

Quand une séquence peut être découpée de plusieurs manières, LEXTER recherche dans le reste du corpus des situations non ambiguës permettant de choisir entre les analyses en compétition. C'est le cas par exemple d'angine de poitrine instable, qui peut être analysée comme [angine de poitrine] instable ou comme angine de [poitrine instable]. Toutefois, si le corpus comporte angine de poitrine, on n'y trouve pas poitrine instable. La première analyse, où instable modifie la tête angine de poitrine, est donc choisie, et l'autre est éliminée. Cette approche, dite endogène, offre l'avantage de ne pas faire intervenir de savoir lexical, syntaxique ou sémantique extérieur au corpus. Elle rejoint notre objectif de travailler de manière inductive, plutôt que par projection de catégories externes au domaine étudié.

 Nous disposons, ici grâce à LEXTER, d'arbres issus d'une analyse syntaxique automatique partielle et robuste. Ces arbres dérivés, uniquement nominaux dans le cas présent, peuvent être d'une complexité plus ou moins grande. Notre objectif est de les simplifier voire de les remanier pour mettre plus aisément en évidence les comportements syntactico-sémantiques majeurs de chaque entrée lexicale et pour dégager certaines de leurs relations sémantiques. Pour atteindre cet objectif, deux moyens.[9] Le premier s'appuie sur les arbres dérivés eux-mêmes pour en extraire les arbres élémentaires qui y figurent. Le second utilise les méta-règles définies par C. Jacquemin (Jacquemin 94) dans le cadre de l'analyseur FASTR. Ces méta-règles permettent des transformations arbitraires d'arbres et viennent compléter le premier dispositif. 

2.2 Extraire les arbres élémentaires

Nous donnons d'abord l'algorithme que nous utilisons. Un exemple permet ensuite de mieux comprendre son fonctionnement.

2.2.1 Algorithme

1 Un certain nombre d'arbres "abstraits", c'est-à-dire d'arbres réduits aux symboles non-terminaux, et donc privés d'éléments lexicaux, sont déclarés comme élémentaires. Pour l'expérience présente, nous avons choisi les arbres suivants [10] :

 [SN [SN N][SP Prep [SN N]]] par exemple taux de mortalite

 [SN [SN N][SAdj Adj]] par exemple mort subite

 [SN [SAdj Adj][SN N]] par exemple faible pression

 Une table est créée. Les types d'arbres déclarés comme élémentaires en sont les clés. Les valeurs correspondantes sont des tables associant à des arbres concrets (c'est-à-dire comportant des éléments lexicaux) des informations sur leur origine : présence directe dans les arbres dérivés, obtention par simplification.

 2 Pour chaque arbre (qu'il soit directement issu de l'analyse ou qu'il ait déjà été simplifié) :

 2.1 Si ce n'est pas un arbre (déclaré comme) élémentaire, le simplifier, lorsque c'est possible (c'est-à-dire lorsqu'il ne s'agit pas d'un pré-terminal dominant une entrée lexicale). Deux types de simplification peuvent s'appliquer :

 2.1.1 Dé-concaténation :

 Chacun des sous-arbres dominés par la racine de l'arbre examiné est considéré à tour de rôle. Cela revient à "défaire" l'action de la règle qui a rassemblé ces arbres en un seul constituant.

 2.1.2 Elimination des "modifiants" :

 Dans l'arbre entier, chaque constituant qui modifie un autre constituant est éliminé.

 2.2 Si l'arbre examiné est un arbre élémentaire, l'ajouter à l'entrée de la table correspondant à ce type d'arbre élémentaire :

 2.2.1 Si cet arbre concret (avec les mêmes éléments lexicaux) figure déjà dans cette entrée, l'intégrer à la table concernant cet arbre. Si c'est le résultat d'une simplification, noter l'arbre dérivé complexe qui lui a donné naissance.

 2.2.2 Si cet arbre concret n'a pas encore été rencontré, créer une nouvelle table pour lui dans l'entrée. 

2.2.2 Une simplification d'arbre dérivé

Montrons sur stenose serre de le tronc commun gauche ce fonctionnement. La figure 1 donne l'arbre dérivé fourni par LEXTER après passage du découpage en Tête / Expansion à un arbre syntagmatique ordinaire (cf. section 2.3). Les symboles non-terminaux y sont numérotés pour pouvoir y faire référence :


Figure 1. arbre dérivé de stenose severe de le tronc commun gauche

 Ce n'est pas un arbre élémentaire. Il est donc "défait" (étape 2.1.1), et les sous-arbres 1 (stenose severe) et 2 (de le tronc commun gauche) sont examinés à tour de rôle. Par ailleurs, les "modifiants" sont éliminés. Par exemple, dans l'arbre 8 (tronc commun gauche), si l'on enlève le SAdj modifiant commun, et que l'on rattache directement le N qui domine tronc au SN 9, on obtient l'arbre tronc gauche (figure 2). L'élimination simultanée de tous les modifiants (2.1.2) (le Dét 7, les SAdj 12 et 10) conduit à l'arbre stenose de tronc (figure 3a).


Figure 2. Elimination d'un modifiant

 A l'issue de l'étape 2.1, les arbres simplifiés suivants sont examinés :

stenose severe

de le tronc commun gauche

stenose de tronc 

Le premier et le dernier sont des arbres élémentaires. Ils sont classés selon l'étape 2.2. Le deuxième arbre est "défait" à son tour, en de (arbre 5) et le tronc commun gauche. L'arbre correspondant à de est éliminé. L'examen de le tronc commun gauche conduit à la décomposition en le, éliminé, et tronc commun gauche. Ce dernier arbre produit deux arbres élémentaires : tronc commun (par déconcaténation) et tronc gauche (par élimination du modifiant SAdj commun). Au total, on obtient quatre arbres élémentaires (figure 3).


Figure 3 : arbres élémentaires pour stenose severe de le tronc commun gauche

 La figure 4 montre le contenu de la table après le classement des arbres dérivés correspondant à : stenose de le tronc commun gauche, stenose severe de le tronc commun gauche, stenose de le tronc gauche, lesion de le tronc gauche, stenose significatif. Chaque type d'arbre élémentaire renvoie aux arbres concrets soit trouvés dans le corpus soit obtenus par simplification.


Figure 4 : table de classement d'arbres élémentaires

2.2.3 Remarques

Les simplifications opérées sont, on le voit, contrôlées par la syntaxe, plus précisément par les relations présentes dans l'arbre dérivé analysé. Les collocations que mettent en évidence les arbres élémentaires correspondent, sauf erreur dans l'analyse initiale (cf. 3.4), à des relations syntaxiques avérées, à la différence d'une partie des travaux sur les collocations qui examinent les rapprochements à l'intérieur d'une "fenêtre" de quelques mots. Ici, dans stenose severe de le tronc gauche, gauche ne sera pas mis en relation avec stenose, puisqu'il ne peut modifier ce nom.

 L'algorithme de simplification suppose de noter comme des modifiants un certain nombre d'ajouts. Nous nous inspirons ici de la représentation des ajouts dans les grammaires d'arbres adjoints (Abeillé 93). Un arbre contenant un ajout est un arbre dont un des fils porte la même étiquette que la racine de l'arbre et qui comporte plusieurs fils. Par exemple, dans [SAdj [Adv tres][SAdj [Adj serre]]], l'arbre [Adv tres] est un ajout, un modifiant de [SAdj [Adj serre]]. Oter le modifiant consiste à remplacer la racine de l'arbre par le constituant dominé de même catégorie. On obtient dans le cas présent [SAdj [Adj serre]]. A contrario, un arbre proche, comme [SAdj [Adv tres] [Adj serre]] ne peut pas être simplifié comme l'arbre précédent. Cette optique nous a conduit à présenter comme des modifiants nombre de constituants, ce qui peut être discuté d'un point de vue linguistique (pour les déterminants par exemple).

2.3 Remanier des arbres dérivés

Par définition, cet algorithme de simplification peut relier uniquement des arbres complexes avec les arbres plus élémentaires dont ils dérivent en défaisant le résultat de l'application successive des règles de la grammaire (émondage des ajouts et déconcaténation). 

Par contre, il ne permet pas de rapprocher des arbres qui ne peuvent pas être analysés comme les descendants (versus les ancêtres) l'un de l'autre. Ainsi l'arbre correspondant à severite de les stenose et celui associé à stenose severe n'ont pas d'arbre élémentaire en commun qui permettrait de les relier, alors même qu'ils sont en relation de paraphrase et que cette relation s'appuie sur la morphologie dérivationnelle.

 Les méta-règles développées par C. Jacquemin pour extraire des variantes d'entrées terminologiques complexes (Jacquemin 94) ont précisément pour fonction de prendre en entrée un arbre arbitrairement complexe et répondant à certaines contraintes et de produire en sortie un autre arbre à la structure et/ou aux informations associées remaniées. Elles supposent des arbres dont les noeuds ne se limitent pas à de simples étiquettes, comme ceux qui ont été présentés dans la sous-section précédente, mais sont constitués d'un ensemble de traits, c'est-à-dire d'associations entre un trait et une valeur. Cela permet d'associer à ces noeuds des informations arbitraires. Par ailleurs, on peut indiquer un partage de valeur entre des traits associés à des noeuds distincts. Cette représentation est celle des grammaires d'unification (Shieber 90; Abeillé 93). La figure 5 établit l'équivalence entre un des arbres examinés précédemment (3b) et une représentation où les noeuds portent une information complexe :


Figure 5 : deux représentations d'un arbre

 Dans l'arbre b, le sous-arbre [N stenose] correspond à un seul noeud où N est la valeur du trait cat(égorie) et stenose celle du trait lemme. Les noeuds correspondant aux entrées lexicales comprennent également des informations morphologiques : genre et nom pour [N stenose], nombre seul pour [Adj severe]. Les constituants non terminaux possèdent également ces informations. Enfin, les indices entre chevrons indiquent le partage de valeur entre différents traits. Le SN dominant [N stenose] a même genre et même nombre que ce dernier.

 La méta-règle de la figure 6 prend en entrée un arbre du type de celui de la figure 5 et produit en sortie un autre arbre, de structure [SN [SN N][SP Prep [SN N]]] dans lequel le lemme du premier nom a pour valeur celle du trait dénominal de l'adjectif de l'arbre de départ (flèche b), tandis le lemme du second nom a pour valeur celle du trait lemme du nom de l'arbre de départ (flèche a). Cette méta-règle n'est applicable que si l'arbre de départ examiné possède les caractéristiques idoines.


Figure 6 : une méta-règle

 L'arbre de la figure 5, stenose severe, peut être apparié avec l'arbre-source de la méta-règle. Cela permet de générer l'arbre-cible correspondant à severite de stenose, comme le montre la figure 7 :


Figure 7 : résultat de l'application de la méta-règle

 Les méta-règles fournissent l'équivalent des transformations qu'utilisent N. Sager et ses collaborateurs dans un cadre harrissien. Elles permettent de remanier la structure d'un arbre ou les informations qui lui sont associées. 

Dans le système de classement que nous utilisons, elles servent en outre à transformer les arbres tels qu'ils sont fournis par LEXTER (figure 8) pour qu'ils aient une structure favorisant les simplifications recherchées.

 Figure 8 : un arbre LEXTER et son correspondant par méta-règle

3. Elimination de modifiants syntaxiques

La décomposition d'un arbre dérivé en arbres élémentaires repose partiellement sur l'élimination de modifiants syntaxiques. Cette opération met en évidence des élisions en discours révélatrices. Elle isole des collocations flexibles. Elle pousse à examiner le rapport entre certaines élisions et des conversions.

3.1 Elisions discursives[11]

En corpus, nous parlons d'élision discursive lorsqu'une séquence sert d'abréviation à une plus longue, qui représente la forme canonique, et qui, comme telle, doit probablement figurer dans une terminologie du domaine. Par exemple, l'arbre élémentaire correspondant à angine instable se rencontre directement (figure 9, a, b et c), mais il résulte également de la simplification de angine de poitrine instable, où de poitrine est considéré comme un modifiant de angine et est enlevé (figure 9d). En contexte, donc, angine instable semble constituer une abréviation d'angine de poitrine. Dans une perspective d'extraction terminologique, il ne s'agit pas d'indiquer qu'angine de poitrine peut être abrégé en angine, ce qui, dans le discours médical, produirait éventuellement une indexation défectueuse, mais de noter qu'angine, lorsqu'il est suivi d'instable, peut renvoyer à angine de poitrine.


Figure 9 : angine stable dans des arbres dérivés

 D'autres exemples figurent dans le corpus : 

Forme développée                       Forme abrégée                          
infarctus de le myocarde ancien        sequelle de un infarctus ancien        
infarctus de le myocarde ancien                                               
inaugural                                                                     
stenose de le tronc commun gauche      stenose de le tronc gauche
lesion de   
atteinte severe de le tronc commun     le tronc gauche                        
gauche
stenose severe de le tronc                                             
commun gauche                                                                 
angine de poitrine stable              malade avec angine stable              

Tableau 1 : élisions en corpus

3.2 Collocations flexibles

Certains arbres élémentaires manifestent l'existence de collocations flexibles. C'est le cas en particulier de l'alternance entre un modifieur évaluatif et une indication de localisation, qui peut se réaliser soit par une séquence nominale, dans ce cas post-posée à l'adjectif évaluatif, soit par un adjectif dénominal qui fait alors interposition entre le N et l'adjectif évaluatif. 

N severe (de N)                        N adj severe                           
atteinte severe de les artere          presence de une atteinte coronarien    
coronaire atteinte severe de le        severe                                 
tronc commun gauche                                                           
lesion severe                          existence de lesion atheromateux       
                                       severe montre de les lesion            
                                       tritronculaire severe lesion           
                                       atheromateux severe lesion             
                                       coronarien severe lesion               
                                       tritronculaire severe                  
obstruction severe de une artere       obstruction coronarien severe          
coronaire                                                                     

Tableau 2 : alternance avec severe

 L'élimination, lors de la simplification, de l'adjectif localisant qui fait interposition renforce l'association entre cette classe de noms et l'indication du degré.[12]

3.3 Elisions, conversions et dénominations

Les affections corporelles localisées présentent une localisation qui s'exprime de trois façons différentes :

 1) de l artere <adjectif1><adjectif2>?[13]

atteinte severe de les artere coronaire

obstruction severe de une artere coronaire

obstruction de les artere coronaire

obstruction severe de une artere coronaire

stenose serre de l artere circonflexe

stenose severe de les artere coronarien

2) de la <N-Adjectif1><adjectif2>?<adjectif3>?

lesion sur la circonflexe distale

occlusion de la coronaire droite moyen

occlusion de la coronaire droite proximal

occlusion de la deuxieme diagonal

occlusion de l interventriculaire anterieur

occlusion total de l interventriculaire anterieur

stenose serre de la carotide interne droit

stenose serre de l interventriculaire anterieur

3) <adjectif1><adjectif2>?

presence de une atteinte coronarien severe

lesion distale

lesion circonflexe distale

obstruction coronarien severe

occlusion coronaire

persistance de une occlusion coronaire droit

occlusion coronaire droit

occlusion de la deuxieme diagonal

occlusion coronaire droit

apparition de une stenose proximal circonflexe

persistance de une stenose circonflexe moyen

stenose coronarien egal

On le voit, artere {interventriculaire diagonal coronarien ...} peut être remplacé par une conversion : la {interventriculaire diagonal coronarien ...}, voire par l'adjectif directement.[14] Cette distribution amène à interpréter différemment artere {interventriculaire diagonal coronarien ...} et un nom quelconque suivi de ces adjectifs. Si les séquences [SN [SN N][SAdj [Adj {interventriculaire diagonal coronarien ...}]]] forment effectivement des hyponymes du nom tête (une stenose coronarien est bien une sorte de stenose, tout comme une artere coronarien est un type d'artere), d'un point de vue conceptuel, la relation n'est pas du même ordre. Dans le cas de formes représentant des affections corporelles localisées, il s'agit d'une localisation, comme l'indique d'ailleurs la possibilité de la préposition sur (lesion sur la circonflexe distale). Pour artere, il s'agit d'un moyen d'identification. Par ailleurs, la possibilité de conversion est l'indice de l'existence d'une dénomination. Elle isole au sein des hyponymes par composition (Kleiber & Tamba 90) ceux qui sont distingués dans la communauté parlante étudiée, puisque le locuteur table sur la facilité pour l'interlocuteur à restituer le nom élidé.[15] Ces conversions "stables" sont à distinguer des anaphores, comme dans l'exemple construit pour la circonstance : "Deux sténoses ont été repérées. La circonflexe est la plus sévère." Notons en outre que si la conversion est un bon indice d'un fonctionnement dénominatif, la non-existence d'une conversion n'est pas un signe en sens inverse.[16] Si le corpus indique qu'artere peut être modifié par {auriculoventriculaire bissecteur brachial femoral humeral pulmonaire renal sous-clavier}, on n'y rencontre pas de conversion mettant en jeu ces adjectifs.

 Les mises en relation opérées[17] soulignent dans le corpus l'importance des conversions concernant les artères, et indiquent des sous-types d'artères à faire figurer à coup sûr dans le réseau conceptuel et terminologique du domaine : {carotide circonflexe coronaire diagonal interventriculaire}. On ajoutera d'ailleurs aux exemples montrés ci-dessus : pontage sur la marginal gauche

3.4 Artéfacts liés à des analyses erronées

L'examen des localisations dans la sous-section précédente montre qu'une séquence comme N {coronaire carotide interventriculaire}{droite gauche}, avec N différent d'artere demande que l'on restitue artere. L'analyse proposée par LEXTER, dans la mesure où le corpus présente des séquences N {coronaire carotide interventriculaire} non suivi de {droite gauche}, consiste à faire de {droite gauche} un modifieur du groupe N {coronaire carotide interventriculaire}. En fait, cette analyse est défectueuse. Les localisants {droite gauche} modifient l'adjectif dénotant une artère. Il faut donc analyser occlusion coronaire droite comme [SN [SN occlusion][SAdj [SAdj [Adj coronaire]][Adj droite]]] et non comme [SN [SN occlusion [SAdj [SAdj [Adj coronaire]]][Adj droite]]. Ces analyses défectueuses débouchent sur des arbres élémentaires non pertinents : occlusion droite, fonction droite etc.

4. Obtention de classes d'équivalence

Les arbres élémentaires permettent de constituer des classes d'équivalence. Ainsi, à partir de l'arbre correspondant à stenose severe, on peut créer deux classes de contextes. La première, [SN [N stenose][SAdj [Adj ?]]] comprend l'entrée severe, la seconde, [SN [N ?][SAdj [Adj severe]]], l'entrée stenose. Au fur et à mesure de l'examen des arbres élémentaires dégagés par l'algorithme de simplification, de nouvelles classes sont créées, et les classes déjà existantes sont complétées. A l'issue du traitement sur l'ensemble des groupes nominaux fournis par LEXTER, on obtient par exemple les ensembles suivants pour les deux classes prises en exemple :

[SN [N stenose][SAdj [Adj ?]]] : {aortique circonflexe coronarien diagonal egal hypertrophique moyen musculaire negligeable non-significatif predominant proximal recent residuel reste serre severe significatif ulcere valvulaire }

[SN [N ?][SAdj [Adj severe]]] : {alteration angor atteinte bradycardie dysfonctionnement lesion maladie obstruction stenose }.

On connait donc tous les adjectifs qui commutent avec severe dans le contexte [SN [N stenose][SAdj [Adj ?]]] et réciproquement tous les noms qui commutent avec stenose dans le contexte [SN [N ?][SAdj [Adj severe]]].

 4.1 Un outil de saisie rapide du fonctionnement lexical

 Pour chaque entrée lexicale, sont fournis les schémas dans lesquels elle figure. Si l'on examine ceux[18] de stenose :

[nom_prep=a_stenose] 1 f., ~? : {maladie }

[nom_prep=de_stenose] 2 f., ~? : {apparition persistance }
 
 

[stenose_prep=sur_nom] 1 f., ~? : {pont }

[stenose_prep=a_nom] 1 f., ~? : {risque }

[stenose_prep=avec_nom] 1 f., ~? : {succes }

[stenose_prep=de_nom] 6 f., ~? : {artere carotide fourche interventriculaire pont tronc }
 
 

[nom_adj=stenose] 1 f., ~? : {premier }

[stenose_adj] 20 f., ~? : {aortique circonflexe coronarien diagonal egal hypertrophique moyen musculaire negligeable non-significatif predominant proximal recent residuel reste serre severe significatif ulcere valvulaire }

les comportements majeurs de stenose se dégagent. Stenose est à la fois un processus (ce que montrent les schémas : {apparition persistance} de stenose et l'emploi d'adjectifs indiquant un déroulement dans le temps : stenose {recent residuel}) et, éventuellement, une partie d'un processus plus vaste : maladie de stenose. Stenose se caractérise partiellement par les localisations qui lui sont associées : la préposition sur, les schémas stenose de {artere carotide fourche interventriculaire pont tronc } et leurs réalisations dénominales : stenose {aortique circonflexe coronarien diagonal moyen proximal valvulaire }. Par ailleurs, d'autres adjectifs indiquent soit le degré (stenose {negligeable non-significatif predominant serre severe significatif}) soit un déroulement dans le temps (stenose {recent residuel }). On comparera cette appréhension synthétique avec celle que fournit par exemple les concordances de sténose et sténose fournies en annexe.[19]

 On notera les malformations de certains séquences : stenose avec succes (il manque probablement un opérateur comme dilatation de) et premier stenose qui est analysé [SN [SN N][SAdj [Adj stenose]]].

 Nous avons mis en gras les formes qui sont seules à apparaître dans un schéma donné en cooccurrence avec stenose. Ainsi, dans la construction [SN [SN N][SAdj [Adj serre]]], seule stenose peut occuper la position N, tandis que dans [SN [SN N][SAdj [Adj severe]]], elle commute avec {alteration angor atteinte bradycardie dysfonctionnement lesion maladie obstruction }. On voit les constructions propres à stenose. A l'inverse, on peut vouloir examiner les proximités que révèlent les constructions partagées.

4.2 Classes d'équivalence et proximités entre formes

Le traitement fournit ces constructions. En voici une partie pour stenose, en se limitant aux adjectifs indiquant le degré et aux constructions indiquant un processus.

[nom_?_adj_non-significatif] 4 f., ? : {lesion plaque reduction stenose }

[nom_?_adj_severe] 9 f., ? : {alteration angor atteinte bradycardie dysfonctionnement lesion maladie obstruction stenose }

[nom_?_adj_significatif] 3 f., ? : {atherosclerose lesion stenose }
 
 

[nom_?_adj_recent] 5 f., ? : {etude infarctus myocarde passage stenose }

[nom_?_adj_residuel] 4 f., ? : {angor image lesion stenose }

[nom_apparition_prep_de_nom_?] 3 f., ? : {ischemie phenomene stenose }

[nom_persistance_prep_de_nom_?] 2 f., ? : {occlusion stenose }

Ces deux ensembles sont révélateurs. On y trouve un hyperonyme (phenomene) validant le rattachement de stenose aux processus. On remarque également la proximité avec des noms de maladie (infarctus, atherosclerose) et avec d'autres noms indiquant des affections corporelles localisées : lesion, occlusion, ischemie.

Par ailleurs, sont calculées les proximités avec d'autres formes, sur la base du nombre de constructions partagées.[20]

Forme                      Constructions partagées                              
lesion 8                   [nom_?_prep_de_nom_tronc] [nom_?_adj_significatif]   
                           [nom_?_adj_severe] [nom_?_adj_residuel]              
                           [nom_?_adj_non-significatif] [nom_?_adj_diagonal]    
                           [nom_?_adj_coronarien] [nom_?_adj_circonflexe]       
atteinte 4                 [nom_?_prep_de_nom_tronc]                            
                           [nom_?_prep_de_nom_artere] [nom_?_adj_severe]        
                           [nom_?_adj_coronarien]                               
segment 3                  [nom_?_prep_de_nom_artere] [nom_?_adj_proximal]      
                           [nom_?_adj_circonflexe]                              
obstruction 3              [nom_?_prep_de_nom_artere] [nom_?_adj_severe]        
                           [nom_?_adj_coronarien]                               
calcification 3            [nom_?_adj_proximal] [nom_?_adj_coronarien]          
                           [nom_?_adj_aortique]                                 
injection 3                [nom_?_prep_de_nom_carotide]                         
                           [nom_?_prep_de_nom_artere] [nom_?_adj_coronarien]    
spasme 3                   [nom_?_prep_de_nom_artere] [nom_?_adj_egal]          
                           [nom_?_adj_coronarien]                               
plaque 3                   [nom_?_prep_de_nom_interventriculaire]               
                           [nom_?_adj_proximal] [nom_?_adj_non-significatif]    
artere 3                   [nom_?_adj_diagonal] [nom_?_adj_coronarien]          
                           [nom_?_adj_circonflexe]                              
occlusion 3                [nom_persistance_prep_de_nom_?]                      
                           [nom_?_prep_de_nom_interventriculaire]               
                           [nom_?_prep_de_nom_carotide]                         

Tableau 3 : constructions partagées par stenose et d'autres formes

 La proximité majeure est avec lesion (8 constructions partagées), mais d'autres formes sont ainsi mises en évidence : intuitivement proches (obstruction, occlusion, voire calcification, plaque et spasme), à fonctionnement hyperonymique (atteinte). D'autres rapprochements étonnent et demandent un examen plus précis : organes ou parties d'organes (artere, segment), actes médicaux (injection).

4.3 Groupes de formes proches

Cet examen des proximités d'une forme aux autres formes sur la base des constructions partagées peut être généralisé et automatisé, pour dégager les groupes de formes proches, à un titre ou à un autre. 

Si l'on considère les formes comme les noeuds d'un graphe, une construction partagée peut représenter une arête reliant deux noeuds. Par exemple, [NOM_?_ADJ_RESIDUEL] relie lesion à stenose (tous deux peuvent y occuper la position N), mais relie aussi chacun d'eux à angor et image. Lorsqu'on calcule l'ensemble des arêtes entre les noeuds du graphe (ici les 1051 entrées lexicales figurant dans les 1252 groupes nominaux fournis par LEXTER), on peut ensuite en extraire les sous-graphes de ce graphe qui soient connexes, c'est-à-dire tels qu'il existe toujours une chaîne (une suite d'arêtes) reliant deux noeuds quelconques. 

Ce calcul produit ici trois sous-graphes connexes. Le programme fournit aussi les graphiques correspondants.[21] Le premier sous-graphe connexe correspond à 37 noms et 49 arêtes, le second à 18 adjectifs, que relient 25 arêtes, le troisième, nettement plus modeste, à 3 noeuds et 2 arêtes. Nous donnons un premier aperçu du principal sous-graphe connexe, sans les étiquettes des arêtes, pour plus de lisibilité (figure 10).


Figure 10 : le premier sous-graphe connexe

 Cette première approche du principal sous-graphe connexe met en évidence une hétérogénéité certaine. Ce sous-graphe mêle en effet des organes et des sites corporels (artère, branche, réseau, ventricule, interventriculaire, carotide, sillon), des affections corporelles localisées (stenose, occlusion, calcification, lesion, atteinte, obstruction), des actes médicaux (pontage, revascularisation, angioplastie), une affection particulière (ischemie, infarctus, myocarde, necrose, territoire), et enfin des groupes au fonctionnement peu clair : {cinetique fonction hypertrophie apex pression} et {position incidence}. Nous avons donc séparé ce sous-graphe en deux graphes (figures 11 et 12), en y reprenant à chaque fois artere qui tient un rôle central.


Figure 11 : 1ère composante connexe (début), les affections corporelles localisées

 Les liens manifestent l'existence d'une famille de formes au fonctionnement proche : {plaque occlusion stenose lesion calcification spasme obstruction atteinte}, que nous appellerons les affections corporelles localisées. La relation de localisation y est fondamentale, sous trois modalités : de {artere tronc}, de <nom d'artère> (carotide, interventriculaire), adjectif lié à une artère spécifique (coronaire, coronarien, diagonal, circonflexe). Le degré est un attribut fondamental : {significatif non-significatif severe important severite}. Ces affections sont à la fois des processus : persistance de {occlusion stenose}, {stenose lesion} residuel, et des entités mesurables : diametre de obstruction, existence de {calcification lesion}.22 Les constructions manifestent en outre la relation /a pour partie/ entre artere et {tronc segment} : {segment tronc} de artere (les autres N de artere, désignant des processus, comme injection, n'entrent pas dans cette relation). Par contre, elles ne permettent pas de caractériser précisément les relations entre les formes proches. Dans la série {plaque occlusion stenose lesion calcification spasme obstruction atteinte}, les formes sont-elles synonymes (et tout particulièrement lesion et stenose, qui partagent le plus de contextes) ? Existe-t-il un ou des hyponymes ? Il en va de même pour la série {insuffisance maladie atherosclerose}. Cette dernière série ne se relie d'ailleurs pas simplement à la précédente : elle entre en effet dans la construction : diagnostic de ?, l'autre non. Les lesions et autres stenoses ne se diagnostiqueraient pas, mais se constateraient.

 Figure 12 : 1ère composante connexe (fin), les sites

 Le reste de la première composante connexe complète la vision des sites esquissée. Carotide, interventriculaire et branche rejoignent artere dans les entités visées par des affections : spasme sur {artere branche}, stenose de {artere carotide interventriculaire}. Par contre, elle n'éclaire pas vraiment les relations entre artere et reseau, branche, sillon et ventricule. Les simples contextes élémentaires ne permettent pas d'établir ces relations. 

Un petit ensemble d'/interventions/ se dessine : {angioplastie revascularisation pontage}. Les contextes mettent d'ailleurs en avant plutôt un dessein (indication de {revascularisation pontage angioplastie}, possibilite de {revascularisation angioplastie}). Le lien avec artere se fait par la localisation sous la forme d'adjectifs dénominaux : angioplastie {circonflexe coronaire}. Parce qu'elle rentre aussi dans les constructions N normal et atteinte de N, fonction est rapprochée d'artere. Toutefois, si les contextes précisent qu'il peut s'agir de fonction {myocardique ventriculaire}, ils n'indiquent pas, à la différence d'artere, ce qui affecte, détériore fonction. On ne peut détecter les processus responsables des {alteration recuperation} de fonction

Le groupe {infarctus myocarde necrose territoire ischemie} se caractérise par un mode de localisation propre {anterieur inferieur apcial lateral} et les attributs d'un processus situé dans le temps : absence de {ischemie infarctus}, sequelle de {infarctus necrose}, infarctus {recent ancien}.


Figure 13 : 2ème composante connexe, les adjectifs

 Le réseau des adjectifs est dominé par les localisants, en particulier ceux qui renvoient à des artères : {marginal coronaire circonflexe diagonal coronarien}. L'opposition {droit gauche} constitue en fait une localisation auxiliaire, dans des contextes comme artere circonflexe gauche. Il s'agit là d'un artefact lié l'analyse effectuée par LEXTER (cf. 3.4). Autre localisation, celle qui concerne la famille d'infarctus : {anterieur apical inferieur}. Coronaire et coronarien sont-ils synonymes ? Malgré le nombre élévé (7) de contextes partagés et leur appartenance commune à la clique[23] {coronaire coronarien diagonal circonflexe}, coronarien est associé à des adjectifs évaluatifs {severe significatif important}, ce qui n'est pas le cas de coronaire. Notons enfin la présence d'antonymes {residuel severe} et {important minime} qui interviennent d'ailleurs dans les mêmes contextes.

5 Evaluation et perspective

La simplification d'arbres, par la normalisation qu'elle opère, accroît le poids de certaines collocations (on l'a vu pour severe supra). Simplifier des arbres dérivés aboutit à éliminer certains modifiants. Cette opération met en évidence la place de certaines élisions en discours, ainsi que la flexibilité de certaines collocations. Elle conduit à voir dans certaines conversions la marque d'un fonctionnement dénominatif.

 Les classes de contextes issues des arbres élémentaires permettent une saisie rapide du fonctionnement d'une entrée lexicale et des liens qu'elle entretient avec d'autres entrées. L'examen global de ces liens, par le biais de la construction des sous-graphes connexes du graphe des formes, est plus problématique. Les associations qui y figurent mélangent des relations diverses : antonymie (residuel / severe), possible synonymie (lesion / stenose), scalarité (moyen / proximal / distal). Elles permettent toutefois un dégrossissage sémantique : mise au jour des entités principales du corpus, établissement de certaines relations. 

La relative imprécision des résultats présentés a plusieurs origines. En premier lieu, en s'en tenant aux groupes nominaux, LEXTER et par conséquent notre traitement, qui se situe en aval, ne disposent pas des informations apportées par les verbes, et sur lesquels s'appuient par exemple N. Sager et son équipe. Si rien n'empêche théoriquement d'appliquer la même démarche (simplification et remaniement d'arbres) à des arbres syntaxiques de phrases entières, on ne dispose pas encore pour le français d'analyseur robuste utilisable dans cette optique. En second lieu, les groupes nominaux retenus par LEXTER sont ceux dont le patron de surface est le plus favorable à un fonctionnement comme terme.[24] Les syntagmes prépositionnels avec de y sont prépondérants. Or même si de n'est pas vraiment une préposition incolore[25], elle n'en résiste pas moins fortement à l'interprétation. En troisième lieu, nous avons voulu pousser à ses limites une exploration purement automatique. La normalisation effectuée, et partant la classification, est restée relativement fruste par rapport à l'analyse fouillée par N. Sager et ses collaborateurs de leurs corpus d'"amorçage". La taille relativement restreinte du corpus utilisé constitue probablement une autre limitation. Par ailleurs, dans un corpus spécialisé, le corpus ne permet pas de repérer toutes les relations : bon nombre d'entre elles font partie de l'implicite partagé par les locuteurs du sous-langage et n'"affleurent" pas. Dans notre corpus, il en va sans doute ainsi de bon nombre des relations méronymiques (que le ventricule soit une partie du coeur par exemple). Enfin, l'omni-présence des localisations, sous leurs diverses réalisations, rapproche des entrées lexicales dont l'horizon sémantique est par ailleurs bien distinct (cf. l'examen du premier sous-graphe connexe).

 Deux voies complémentaires s'offrent pour avancer dans cette construction en corpus de classes sémantiques pour un sous-langage donné. La première est dans la lignée des traitements symboliques effectués pour cette expérience. Il s'agit tout d'abord d'utiliser systématiquement les méta-règles pour le repérage des phénomènes d'élision et de conversion. Nous voulons en outre nous servir des prédicats nominaux (essentiellement les déverbaux), pour typer sémantiquement les noms qui entrent dans des constructions Nprédicatif Prép N2. Certains Nprédicatifs attendent en effet un N2 dénotant un évènement (altération, début), d'autres une entité (épaississement). Trois obstacles se dressent toutefois. En premier lieu, le N2 n'est pas forcément un argument du Nprédicatif (traitement de routine / traitement de la fibrillation). En second lieu, des phénomènes de coercion de type peuvent intervenir : arrêt attend bien un nom d'évènement, mais dans arrêt du tabac, il y a coercion : c'est de consommation du tabac qu'il s'agit. Enfin, il n'est pas sûr que les types obtenus soient très spécifiques. Si certains noms prédicatifs précisent davantage le type du N2 (diagnostic), ils sont plutôt l'exception. La seconde voie entend s'appuyer sur des critères statistiques pour aider à isoler des aggrégats de comportements syntactico-sémantiques.[26] Un point de départ serait d'utiliser le poids des collocations dégagées.

 En définitive, nos choix sont assez proches de ceux de G. Grefenstette (Grefenstette 94). Nous n'attribuons pas d'étiquettes sémantiques à la main, nous n'utilisons pas d'informations lexicales complexes (contraintes de sélection, cadre de sous-catégorisation), nous n'utilisons pas de base de connaissance construite pour un domaine particulier. Au contraire, nous avons recours à des techniques indépendantes du domaine traité (analyse syntaxique robuste et partielle), incorporant peu de "savoir". Le traitement est entièrement automatique, et donc reproductible, à la fois pour la recherche des arbres élémentaires et pour la mise au point de classes de formes et l'examen des proximités entre formes.[27]

Remerciements 

Cette recherche a bénéficié du soutien du programme Composition lexicale et modélisation, financé par le CRSH (Centre pour le Recherche en Sciences Humaines - Canada), et dirigé par P. Barbaud (UQAM - Université du Québec à Montréal). Ce programme associe l'ELI (Equipe Linguistique et Informatique - ENS de Fontenay St Cloud), l'IRIN (Institut de Recherche en Informatique de Nantes) et l'UQAM.

 Les travaux du groupe Terminologie et Intelligence Artificielle ont contribué également à la mise au point de l'approche présentée. 

Nous remercions en outre Cécile Fabre[28] (IRISA) et, à l'ELI (ENS de Fontenay St Cloud), Serge Fleury, Elie Naulleau et Adeline Nazarenko pour leurs précieuses remarques sur des états de ce travail.

 Nous remercions particulièrement Didier Bourigault, à la fois pour nous avoir fourni les résultats de LEXTER sur le corpus étudié et pour avoir examiné et discuté les données issues de la simplification d'arbres et les analyses en découlant.

Références

Abeillé A. (1993), Les nouvelles syntaxes : grammaires d'unification et analyse du français, Armand Colin, Paris.

 Assadi H., Bourigault D. (1995), "Classification d'adjectifs extraits d'un corpus pour l'aide à la modélisation de connaissances", Actes Journées de l'Analyse des Données Textuelles.

 BARBAUD, P. (1992), "Recycling words", in Theoretical Analysis in Romance Linguistics, Lauefer C., Morgan T. (eds.), Amsterdam, John Benjamins, pp. 197-217.

 Barbaud, P. (1991), "Fondements grammaticaux de l'acquisition des mots composés", Revue canadienne de Linguistique, 36(2), pp. 215-253.

 Bartning, I. (1987), "L'interprétation des syntagmes binominaux en `de' en français contemporain", Cahiers de Grammaire, 12, Toulouse Le Mirail, pp. 1-64.

 Church, K., Hanks, P. (1989), "Word Association Norms, Mutual Information, and Lexicography", in Proceedings, 27th Annual Meeting of the Association for Computational Linguistics (ACL'89), Vancouver, CA, Juin 1989, pp.~76--83.

 Corbin, D. (1993), "Hypothèses sur les frontières dérivationnelles de la composition nominale", Cahiers de grammaire, 17, Université de Toulouse Le Mirail, pp. 26-55.

 Dachelet, D. (1994), Sur la notion de sous-langage, Thèse de doctorat en sciences du langage, Université Paris VIII.

 Daille, B. (1994), Approche mixte pour l'extraction automatique de terminologie~: statistique lexicale et filtres linguistiques, Thèse de doctorat en informatique, Université Paris 7.

 Dunham, G. (1986),"The Role of Syntax in the Sublanguage of Medical Diagnostic Statements", in Analyzing Language in Restricted Domains : Sublanguage Description and Processing, Grishman, R., Kittredge, R. (eds.), Lawrence Erlbaum Associates, Hillsdale, New Jersey, pp. 175-194.

 Fradin B. (1984), "Anaphorisation et stéréotypes nominaux", Lingua, vol. 4, pp. 325-369. 

Friedman, C. (1986),"Automatic Structuring of Sublanguage Information : Application to Medical Narrative", in Analyzing Language in Restricted Domains : Sublanguage Description and Processing, Grishman, R., Kittredge, R. (eds.), Lawrence Erlbaum Associates, Hillsdale, New Jersey, pp. 85-102.

 Friedman C. (1987a),"Information Structures in Clinical Narrative", in Medical Language Processing : Computer Management of Narrative Data, Sager, N. Friedman C., Lyman M. (eds.), Addison-Wesley, pp. 61-80.

 Friedman, C. (1987b),"A Sublanguage Narrative Processor", in Medical Language Processing : Computer Management of Narrative Data, Sager, N. Friedman C., Lyman M. (eds.), Addison-Wesley, pp. 81-111.

 Grefenstette, G. (1994), Exploration in automatic thesaurus discovery, Kluwer Academic Publishers.

 Gross, G. (1994), "Classes d'objets et description des verbes", Langages, 115, pp. 15-30.

 Gross, G., Vivès, R. (1986) "Les constructions nominales et l'élaboration d'un lexique-grammaire", Langue Française, 69, pp. 5-27.

 Habert, B. (1991), "OLMES, a versatile and extensible parser in CLOS", In Proceedings Techniques of Object-Oriented Languages and Systems (TOOLS'91), Paris.

 Habert, B., Fabre, C. (à paraître), "Simplifying Nominal Parse Trees to Find Semantic Types in Corpus", in Proceedings ALLC-ACH.

 Habert, B., Jacquemin, C. (1993), "Noms composés, termes, dénominations complexes : problématiques linguistiques et traitements automatiques", TAL, 34(2), pp. 5-42.

 Hischman, L. (1986),"Discovering Sublanguage Structures", in Analyzing Language in Restricted Domains : Sublanguage Description and Processing, Grishman, R., Kittredge, R. (eds.), Lawrence Erlbaum Associates, Hillsdale, New Jersey, pp. 211-234.

 Jacquemin, C. (1994), "Recycling Terms into a Partial Parser", In Proceedings, 4th Conference on Applied Natural Language Processing (ANLP'94), Stuttgart, pp 113-118.

 Jayez, J., Godard, D. (1995), "Principles as lexical methods", in Proceedings of the AAAI Workshop on representation and acquisition of lexical knowledge, Stanford University.

 Kleiber, G., Tamba, I. (1991), "L'hyponymie revisitée : inclusion et hiérarchie", Langages, 98, pp. 7-32.

 Labelle, J. (1986), "Grammaire des noms de maladie", Langue Française, 69, pp. 108-125.

 Lehrberger, J. (1986)","Sublanguage Analysis", in Analyzing Language in Restricted Domains : Sublanguage Description and Processing, Grishman, R., Kittredge, R. (eds.), Lawrence Erlbaum Associates, Hillsdale, New Jersey, pp. 19-38.

 Le Pesant, D. (1994), "Les compléments nominaux du verbe lire : une illustration de la notion de 'classe d'objets'", Langages, 115, pp. 31-46.

 London, C. (1987),"The Healthcare Lexicon", in Medical Language Processing : Computer Management of Narrative Data, Sager, N. Friedman C., Lyman M. (eds.), Addison-Wesley, pp. 137-144.

 Marsh, E. (1986),"General Semantic Patterns in Different Sublanguages", in Analyzing Language in Restricted Domains : Sublanguage Description and Processing, Grishman, R., Kittredge, R. (eds.), Lawrence Erlbaum Associates, Hillsdale, New Jersey, pp. 103-128.

 Mattick, P. (1987),"Sublanguage Analysis of Articles in Lipid Metabolism", in Medical Language Processing : Computer Management of Narrative Data, Sager, N. Friedman C., Lyman M. (eds.), Addison-Wesley, pp. 221-252.

 Mel'cuk, I. (1988), "Paraphrase et lexique dans la théeorie linguistique Sens-Texte", Lexique, 6, pp. 3-54.

 Mélis-Puchulu, A. (1991), "Les adjectifs dénominaux : des adjectifs de <<relation>>", Lexique, pp. 33-60.

 Pêcheux, M. (1969, Analyse automatique du discours, Dunod, Paris.

 Rastier, F., Cavazza, M., Abeillé, A. (1994), Sémantique pour l'analyse : de la linguistique à l'informatique, Masson, Paris.

 RIEGEL, M., (1991), "Ces noms dits composés, arguments et critères", Studia Romanica Posnaniensia, 16, Poznan.

 Sager, N. (1981), Natural Language Information Processing : A Computer Grammar of English and Its Applications, Addison Wesley", Reading, Massachusetts.

 Sager, N. (1986),"Sublanguage : Linguistic Phenomenon, Computational Tool", in Analyzing Language in Restricted Domains : Sublanguage Description and Processing, Grishman, R., Kittredge, R. (eds.), Lawrence Erlbaum Associates, Hillsdale, New Jersey, pp. 1-18.

 Sager, N. (1987a),"Computer Processing of Narrative Information", in Medical Language Processing : Computer Management of Narrative Data, Sager, N. Friedman C., Lyman M. (eds.), Addison-Wesley, pp. 3-22.

 Sager, N. (1987b),"Information Formatting of Medical Literature", in Medical Language Processing : Computer Management of Narrative Data, Sager, N. Friedman C., Lyman M. (eds.), Addison-Wesley, pp. 197-220.

 Slocum, J. (1986),"How One might Automatically Identify and Adapt to a Sublanguage : An Initial Exploration", in Analyzing Language in Restricted Domains : Sublanguage Description and Processing, Grishman, R., Kittredge, R. (eds.), Lawrence Erlbaum Associates, Hillsdale, New Jersey, pp. 195-210.

 Smadja, F. (1993) "Retrieving Collocations from Text : Xtract", Computational Linguistics, 19(1), Mars, pp.~143-178.

 Wolff, S. (1987),"Automatic Coding of Medical Vocabulary",.in Medical Language Processing : Computer Management of Narrative Data, Sager, N. Friedman C., Lyman M. (eds.), Addison-Wesley, pp. 145-162.

Annexe :
 
 

=== Requête num 1 === sténose -> F= 64 

--- Concordance --- tri après
 
 

s nécessaire de corriger cette sténose. 4deg.) une hypertension artériell

s le territoire en aval d' une sténose. Cette exploration est actuelle

tère en amont ou en aval de la sténose. Or des études récentes démontr

ne lésion monotronculaire avec sténose à 80% d' une diagonale. Actuell

eure mais l' apparition d' une sténose à 90 % sur la circonflexe moyen

rotide primitive droite et une sténose au niveau de la bifurcation car

entriculaire antérieure. Cette sténose avait été dilatée tout en négli

irrégularités pariétales( une sténose avait été suspectée lors d' une

on sur la coronaire droite( la sténose cédant à une pression de 12 atm

modérée, la persistance d' une sténose circonflexe moyenne serrée. La 

e angioplastie de cette double sténose complexe est réalisée avec un e

ricule gauche secondaire à une sténose d' une première artère diagonal

ographie a mis en évidence une sténose de l' IVA distale sub- occlusiv

l' angioplastie le fait que la sténose de l' IVA était récente bien qu

ulcérée de l' IVA moyenne, une sténose de l' IVA très distale et entre

r a repris en rapport avec une sténose de l' interventriculaire antéri

é droite/ Gauche ainsi qu' une sténose de la coronaire droite au segme

une angioplastie d' une double sténose de la droite, sans qu' on note 

dilatation est réalisée sur la sténose du pont mammaire extrêmement to

début de l' investigation, une sténose du tronc commun de la coronaire

ommun gauche. En l' absence de sténose du tronc commun gauche, des inj

e de principe pour exclure une sténose du tronc commun gauche, dont la

hnique habituelle. Une fois la sténose du tronc exclue, l' artère coro

coronarographie qui montre une sténose du tronc gauche ainsi qu' une o

coronarographie qui montre une sténose du tronc gauche, une occlusion 

et circonflexe. Toutefois, une sténose égale ou supérieure à 50 p. 100

rien obstruction- coronarienne sténose en- amont en- aval pontage artè

nce des deux marginales. Cette sténose est dilatée avec succès. Les su

arographie met en évidence une sténose excentrée de l' ordre de 70% da

ographie a mis en évidence une sténose inhomogène de l' interventricul

cienne de la coronaire droite, sténose longue irrégulière inhomogène d

ortueuse. Le guide franchit la sténose mais cela n' est pas possible a

ne. Elle permet de déceler une sténose musculaire hypertrophique sous-

dilatée tout en négligeant une sténose non significative et distale de

gonale proximale suivie d' une sténose plus distale visualisée par col

teuse d' une maladie mitrale à sténose prédominante. Lors d' un passag

distale, l' apparition d' une sténose proximale circonflexe modérée, 

rmis de mettre en évidence une sténose récente et très serrée de l' IV

at s' en trouve amélioré et la sténose résiduelle est inférieure à 30 

rmet de mettre en évidence une sténose serrée de l' IVA au tiers proxi

a coronarographie retrouve une sténose serrée de l' IVA proximale à ra

Le cathétérisme objective une sténose serrée de l' IVA responsable d'

téralité droite/ gauche et une sténose serrée de l' artère circonflexe

prinzmétal en rapport avec une sténose serrée de l' interventriculaire

lle met en évidence une double sténose serrée de l' interventriculaire

ration sous- clavière. 3deg.) une sténose serrée de la carotide interne d

ne hypokinésie antérieure. Une sténose serrée, diagonale et circonflex

ximal du segment distal et une sténose serrée du genou inférieur de la

arographie met en évidence une sténose serrée du tronc coronaire gauch

un patient stable, montre une sténose serrée et d' allure thrombotiqu

tera l' examen. En présence de sténose sévère du tronc commun de l' ar

ue gauche, afin d' exclure une sténose sévère du tronc commun gauche. 

d' autres sont porteurs d' une sténose sévère du tronc commun gauche o

seau coronaire irrégulier sans sténose significative. Le VG est normal

nimes du réseau coronaire sans sténose significative. Le test au Méthe

ans la foulée, de même qu' une sténose significative au niveau d' une 

' amont avec apparition d' une sténose sub- occlusive circonflexe prox

alcifiées et excentrées et une sténose subocclusive de l' interventric

aussitôt réalisée montrant une sténose très serrée de l' artère circon

ontrait la constitution d' une sténose très serrée de l' interventricu

circonflexe mais il existe une sténose très serrée sur l' interventric

alisée qui met en évidence une sténose ulcérée de l' IVA moyenne, une 

farctus avait alors montré une sténose ulcérée non significative du se

rtrophique sous- aortique, une sténose valvulaire aortique ou un prola
 
 

=== Requête num 2 === sténose -> F= 64 

--- Concordance --- tri avant
 
 

entriculaire antérieure. Cette sténose avait été dilatée tout en négli

nce des deux marginales. Cette sténose est dilatée avec succès. Les su

ne hypokinésie antérieure. Une sténose serrée, diagonale et circonflex

teuse d' une maladie mitrale à sténose prédominante. Lors d' un passag

ne lésion monotronculaire avec sténose à 80% d' une diagonale. Actuell

s nécessaire de corriger cette sténose. 4deg.) une hypertension artériell

rien obstruction- coronarienne sténose en- amont en- aval pontage artè

ommun gauche. En l' absence de sténose du tronc commun gauche, des inj

tera l' examen. En présence de sténose sévère du tronc commun de l' ar

e angioplastie de cette double sténose complexe est réalisée avec un e

une angioplastie d' une double sténose de la droite, sans qu' on note 

lle met en évidence une double sténose serrée de l' interventriculaire

cienne de la coronaire droite, sténose longue irrégulière inhomogène d

tère en amont ou en aval de la sténose. Or des études récentes démontr

on sur la coronaire droite( la sténose cédant à une pression de 12 atm

at s' en trouve amélioré et la sténose résiduelle est inférieure à 30 

hnique habituelle. Une fois la sténose du tronc exclue, l' artère coro

ortueuse. Le guide franchit la sténose mais cela n' est pas possible a

l' angioplastie le fait que la sténose de l' IVA était récente bien qu

dilatation est réalisée sur la sténose du pont mammaire extrêmement to

nimes du réseau coronaire sans sténose significative. Le test au Méthe

seau coronaire irrégulier sans sténose significative. Le VG est normal

ration sous- clavière. 3deg.) une sténose serrée de la carotide interne d

et circonflexe. Toutefois, une sténose égale ou supérieure à 50 p. 100

ricule gauche secondaire à une sténose d' une première artère diagonal

rtrophique sous- aortique, une sténose valvulaire aortique ou un prola

prinzmétal en rapport avec une sténose serrée de l' interventriculaire

r a repris en rapport avec une sténose de l' interventriculaire antéri

' amont avec apparition d' une sténose sub- occlusive circonflexe prox

distale, l' apparition d' une sténose proximale circonflexe modérée, 

eure mais l' apparition d' une sténose à 90 % sur la circonflexe moyen

s le territoire en aval d' une sténose. Cette exploration est actuelle

ontrait la constitution d' une sténose très serrée de l' interventricu

modérée, la persistance d' une sténose circonflexe moyenne serrée. La 

d' autres sont porteurs d' une sténose sévère du tronc commun gauche o

gonale proximale suivie d' une sténose plus distale visualisée par col

ne. Elle permet de déceler une sténose musculaire hypertrophique sous-

ximal du segment distal et une sténose serrée du genou inférieur de la

rotide primitive droite et une sténose au niveau de la bifurcation car

alcifiées et excentrées et une sténose subocclusive de l' interventric

téralité droite/ gauche et une sténose serrée de l' artère circonflexe

arographie met en évidence une sténose excentrée de l' ordre de 70% da

arographie met en évidence une sténose serrée du tronc coronaire gauch

alisée qui met en évidence une sténose ulcérée de l' IVA moyenne, une 

rmet de mettre en évidence une sténose serrée de l' IVA au tiers proxi

rmis de mettre en évidence une sténose récente et très serrée de l' IV

ographie a mis en évidence une sténose de l' IVA distale sub- occlusiv

ographie a mis en évidence une sténose inhomogène de l' interventricul

ue gauche, afin d' exclure une sténose sévère du tronc commun gauche. 

e de principe pour exclure une sténose du tronc commun gauche, dont la

circonflexe mais il existe une sténose très serrée sur l' interventric

début de l' investigation, une sténose du tronc commun de la coronaire

aussitôt réalisée montrant une sténose très serrée de l' artère circon

coronarographie qui montre une sténose du tronc gauche ainsi qu' une o

coronarographie qui montre une sténose du tronc gauche, une occlusion 

un patient stable, montre une sténose serrée et d' allure thrombotiqu

farctus avait alors montré une sténose ulcérée non significative du se

ulcérée de l' IVA moyenne, une sténose de l' IVA très distale et entre

dilatée tout en négligeant une sténose non significative et distale de

Le cathétérisme objective une sténose serrée de l' IVA responsable d'

irrégularités pariétales( une sténose avait été suspectée lors d' une

é droite/ Gauche ainsi qu' une sténose de la coronaire droite au segme

ans la foulée, de même qu' une sténose significative au niveau d' une 

a coronarographie retrouve une sténose serrée de l' IVA proximale à ra
 
 

=== Requête num 3 === sténoses -> F= 10 

--- Concordance --- tri après
 
 

se coronarienne significative( sténoses coronariennes égales ou supéri

arctus du myocarde ancien sans sténoses coronariennes ou avec lésions 

malades avec angine stable) de sténoses du tronc commun de l' artère c

ère. Toutefois, la présence de sténoses du tronc commun de la coronair

e ont à la coronarographie des sténoses égales ou supérieures à 50 p. 

n localisé au niveau des trois sténoses, plus marqué au niveau de la c

mortalité, par la détection de sténoses serrées du tronc de la coronai

l' intervention. De plus, les sténoses sévères des artères coronarien

niquement. Habituellement, ces sténoses sont estimées visuellement en 

e. Il s' agit en fait de trois sténoses successives de l' artère coron
 
 

=== Requête num 4 === sténoses -> F= 10 

--- Concordance --- tri avant
 
 

niquement. Habituellement, ces sténoses sont estimées visuellement en 

mortalité, par la détection de sténoses serrées du tronc de la coronai

ère. Toutefois, la présence de sténoses du tronc commun de la coronair

malades avec angine stable) de sténoses du tronc commun de l' artère c

e ont à la coronarographie des sténoses égales ou supérieures à 50 p. 

l' intervention. De plus, les sténoses sévères des artères coronarien

arctus du myocarde ancien sans sténoses coronariennes ou avec lésions 

se coronarienne significative( sténoses coronariennes égales ou supéri

e. Il s' agit en fait de trois sténoses successives de l' artère coron

n localisé au niveau des trois sténoses, plus marqué au niveau de la c


LEXICOMETRICA (ISSN 1773-0570)
Coordinateurs de la rédaction : André Salem, Serge Fleury
Contacts:  lexicometrica@univ-paris3.fr
ILPGA, 19 rue des Bernardins, 75005 Paris France



Site Meter