Benoît Habert[*],
Philippe Barbaud, [**], Fernande Dupuis**,
Christian Jacquemin[***]
Simplifier des arbres d'analyse pour dégager les comportements syntactico-sémantiques des formes d'un corpus
Résumé-abstract
Des groupes nominaux complexes fournis par un outil d'extraction terminologique
sont simplifiés pour obtenir les arbres élémentaires
montrant les relations sémantiques fondamentales d'un corpus. Ce
processus d'acquisition de connaissances est testé sur un corpus
médical
Complex nominal phrases provided by a terminology extraction software
are simplified in order to get elementary trees giving the main semantic
relationships of a corpus. This knowledge extraction process is tested
on a medical corpus.
1. Mettre en évidence les comportements syntactico-sémantiques
des formes d'un corpus
Notre travail est sous-tendu par une double préoccupation. Théorique
: caractériser syntaxiquement et sémantiquement les dénominations
complexes bien formées d'un domaine donné (Habert & Jacquemin
94). Pratique : isoler au sein des groupes nominaux d'un domaine ceux qui
ont effectivement un comportement dénominatif et sont à intégrer
par exemple à une base terminologique. Dans les deux cas, il importe
de pouvoir associer à chaque composant des séquences examiner
des informations sémantiques. Nous entendons nous appuyer au maximum
sur les données fournies par un corpus pour constituer ces informations.
1.1 Classements sémantiques et sous-langages
Pour étudier les patrons syntactico-sémantiques à
l'oeuvre dans un domaine donné, on peut utiliser une ontologie spécialisée,
du type du Metathesaurus de l'UMLS pour le domaine médical. Comme
le montre G. Grefenstette (Grefenstette 94), de telles ontologies sont
souvent criticables, et ne s'utilisent pas aisément pour d'autres
domaines, malgré les recherches actuelles sur les ontologies "réutilisables".
Elles sont en outre coûteuses à construire.
Une autre optique consiste à construire des classes sémantiques
non pas sur la base d'une organisation conceptuelle préalable, mais
de manière inductive, à partir du comportement syntaxique
des formes, c'est-à-dire à partir des opérateurs qui
leur sont associées. On classera ainsi bruit comme un évènement
et non comme une entité concrète, à partir du moment
où bruit entre dans la phrase : un bruit se produisit
(Gross 94). Le degré de finesse souhaité peut varier : des
classes en petit nombre comme dans les travaux de D. Godard et J. Jayez
(Godard & Jayez 94, 95), ou au contraire de très nombreuses
classes comme dans (Le Pesant 94).
Cette démarche trouve ses limites quant on aborde un langage
spécialisé. Hors une connaissance du domaine en cause, il
est souvent impossible de savoir si une construction est "acceptable" ou
non.
1.2 L'analyse de sous-langages : la démarche harrissienne[1]
Dans la lignée des travaux de Harris, l'équipe de Naomi
Sager a entrepris de développer une méthodologie de mise
au jour des phrases élémentaires d'un sous-langage et des
classes sémantiques qui y figurent (Sager 86; Sager et al.
87).[2] L'hypothèse est que dans
un sous-langage, les restrictions de sélection sont basés
en fait sur des contraintes sémantiques beaucoup plus fortes que
dans la langue générale.[3]
La première étape consiste à analyser un
corpus restreint du sous-langage choisi. Chaque phrase se voit associer
un arbre d'analyse. Cet arbre est ensuite simplifié pour restituer
les anaphores, éliminer les coordinations, les enchâssements
etc.[4] Des transformations sont appliquées
pour normaliser les phrases (passage du passif à l'actif etc.).[5]
Le résultat est un ensemble de phrases élémentaires.
L'examen de ces phrases élémentaires fournit les
opérateurs de base du sous-langage, et pour chaque opérateur,
les classes de mots qui peuvent être en position d'arguments. Ces
ensembles s'avèrent être autant de classes sémantiques.[6]
Ces résultats : classes sémantiques et opérateurs,
sont ensuite utilisés pour analyser, automatiquement[7],
d'autres corpus, moins restreints, du même sous-langage.
Cette démarche a été appliquée au discours
médical (Sager et al. 87) et au discours pharmacologique.
Nous avons utilisé la même approche. Nous nous en
sommes éloignés sur deux points. D'abord, nous nous sommes
limités à l'analyse de groupes nominaux. En second lieu,
notre effort a porté sur la mise au point d'une chaîne automatique
de traitement, à la place de l'analyse manuelle initiale opérée
par N. Sager et ses collaborateurs.
1.3 La présente expérience
Dans la seconde section, nous présentons en 2.1 LEXTER, l'outil
d'extraction terminologique dont nous retravaillons les analyses qu'il
fournit d'une partie des groupes nominaux d'un corpus, puis nos outils
pour mettre en évidence les comportements syntactico-sémantiques
: simplification en arbres élémentaires (2.2), remaniement
d'arbres par méta-règles (2.3).
Nous avons testé notre démarche sur un corpus constitué
par le Groupe de Travail Terminologie et Intelligence Artificielle (PRC-GDR
Intelligence Artificielle, CNRS) pour comparer différentes méthodes
d'extraction terminologique et de construction de bases conceptuelles et
terminologiques. Ce corpus, de 20 840 occurrences, a pour unité
thématique les maladies coronariennes. Il comprend des compte-rendus
d'hospitalisation et des lettres de médecins aux médecins
traitants après traitement hospitalier[8],
ainsi qu'un extrait d'un manuel de coronarographie. Nous avons ignoré
dans un premier temps la différence de genre textuel (Biber 94)
entre les différentes parties du corpus.
La section 3 montre les phénomènes dégagés
par l'élimination des modifiants dans les arbres d'analyse. La section
4 examine les rapprochements entre formes qui naissent des classes d'équivalence
constituées à partir des arbres élémentaires.
La section 5 évalue l'expérience présente et indique
les perspectives.
2. Simplifier, remanier et classer des arbres d'analyse
2.1 Obtention d'arbres d'analyse : LEXTER
LEXTER (Bourigault 93, 94) a été conçu et réalisé
dans un environnement industriel, la Direction des Etudes et Recherches
d'Electricité de France, pour aider à la mise au point de
terminologies.
LEXTER prend en entrée des textes techniques longs (de 100 000
à 1 million de mots), préalablement étiquetés.
Il commence par délimiter les groupes maximaux les plus longs possibles,
sur la base de patrons morphosyntaxiques qui permettent de repérer
les frontières de ces groupes nominaux. Il trie au sein de ces groupes
nominaux ceux qui, en fonction de leur patron de surface et d'autres propriétés
(nature des prépositions, des déterminants) peuvent constituer
des entrées terminologiques. LEXTER divise chacune de ces séquences
nominales en T(ête) et E(xpansion), de façon récursive.
La séquence stenose severe de le tronc commun gauche est
par exemple analysée comme suit :
[T [T stenose][E severe]][E de le [T [T tronc][E commun]][E gauche]]
Les accents sont enlevés par le programme d'étiquetage
utilisé par LEXTER. Les mots contractés comme du sont
remplacés par la séquence préposition déterminant.
Ce programme remplace en outre les formes par leur lemme. Les exemples
fournis dans la suite de l'article sont par conséquent lemmatisés
et désaccentués.
Quand une séquence peut être découpée de
plusieurs manières, LEXTER recherche dans le reste du corpus des
situations non ambiguës permettant de choisir entre les analyses en
compétition. C'est le cas par exemple d'angine de poitrine instable,
qui peut être analysée comme [angine de poitrine] instable
ou comme
angine de [poitrine instable]. Toutefois, si le corpus
comporte
angine de poitrine, on n'y trouve pas poitrine instable.
La première analyse, où instable modifie la tête
angine
de poitrine, est donc choisie, et l'autre est éliminée.
Cette approche, dite endogène, offre l'avantage de ne pas faire
intervenir de savoir lexical, syntaxique ou sémantique extérieur
au corpus. Elle rejoint notre objectif de travailler de manière
inductive, plutôt que par projection de catégories externes
au domaine étudié.
Nous disposons, ici grâce à LEXTER, d'arbres issus
d'une analyse syntaxique automatique partielle et robuste. Ces arbres dérivés,
uniquement nominaux dans le cas présent, peuvent être d'une
complexité plus ou moins grande. Notre objectif est de les simplifier
voire de les remanier pour mettre plus aisément en évidence
les comportements syntactico-sémantiques majeurs de chaque entrée
lexicale et pour dégager certaines de leurs relations sémantiques.
Pour atteindre cet objectif, deux moyens.[9]
Le premier s'appuie sur les arbres dérivés eux-mêmes
pour en extraire les arbres élémentaires qui y figurent.
Le second utilise les méta-règles définies par C.
Jacquemin (Jacquemin 94) dans le cadre de l'analyseur FASTR. Ces méta-règles
permettent des transformations arbitraires d'arbres et viennent compléter
le premier dispositif.
2.2 Extraire les arbres élémentaires
Nous donnons d'abord l'algorithme que nous utilisons. Un exemple permet
ensuite de mieux comprendre son fonctionnement.
2.2.1 Algorithme
1 Un certain nombre d'arbres "abstraits", c'est-à-dire d'arbres
réduits aux symboles non-terminaux, et donc privés d'éléments
lexicaux, sont déclarés comme élémentaires.
Pour l'expérience présente, nous avons choisi les arbres
suivants [10] :
[SN [SN N][SP Prep [SN N]]] par exemple taux de mortalite
[SN [SN N][SAdj Adj]] par exemple mort subite
[SN [SAdj Adj][SN N]] par exemple faible pression
Une table est créée. Les types d'arbres déclarés
comme élémentaires en sont les clés. Les valeurs correspondantes
sont des tables associant à des arbres concrets (c'est-à-dire
comportant des éléments lexicaux) des informations sur leur
origine : présence directe dans les arbres dérivés,
obtention par simplification.
2 Pour chaque arbre (qu'il soit directement issu de l'analyse
ou qu'il ait déjà été simplifié) :
2.1 Si ce n'est pas un arbre (déclaré comme) élémentaire,
le simplifier, lorsque c'est possible (c'est-à-dire lorsqu'il ne
s'agit pas d'un pré-terminal dominant une entrée lexicale).
Deux types de simplification peuvent s'appliquer :
2.1.1 Dé-concaténation :
Chacun des sous-arbres dominés par la racine de l'arbre
examiné est considéré à tour de rôle.
Cela revient à "défaire" l'action de la règle qui
a rassemblé ces arbres en un seul constituant.
2.1.2 Elimination des "modifiants" :
Dans l'arbre entier, chaque constituant qui modifie un autre constituant
est éliminé.
2.2 Si l'arbre examiné est un arbre élémentaire,
l'ajouter à l'entrée de la table correspondant à ce
type d'arbre élémentaire :
2.2.1 Si cet arbre concret (avec les mêmes éléments
lexicaux) figure déjà dans cette entrée, l'intégrer
à la table concernant cet arbre. Si c'est le résultat d'une
simplification, noter l'arbre dérivé complexe qui lui a donné
naissance.
2.2.2 Si cet arbre concret n'a pas encore été rencontré,
créer une nouvelle table pour lui dans l'entrée.
2.2.2 Une simplification d'arbre dérivé
Montrons sur stenose serre de le tronc commun gauche ce fonctionnement.
La figure 1 donne l'arbre dérivé fourni par LEXTER après
passage du découpage en Tête / Expansion à un arbre
syntagmatique ordinaire (cf. section 2.3). Les symboles non-terminaux y
sont numérotés pour pouvoir y faire référence
:
Figure 1. arbre dérivé de stenose severe de le tronc
commun gauche
Ce n'est pas un arbre élémentaire. Il est donc "défait"
(étape 2.1.1), et les sous-arbres 1 (stenose severe) et 2
(de le tronc commun gauche) sont examinés à tour de
rôle. Par ailleurs, les "modifiants" sont éliminés.
Par exemple, dans l'arbre 8 (tronc commun gauche), si l'on enlève
le SAdj modifiant
commun, et que l'on rattache directement le N
qui domine tronc au SN 9, on obtient l'arbre tronc gauche
(figure 2). L'élimination simultanée de tous les modifiants
(2.1.2) (le Dét 7, les SAdj 12 et 10) conduit à l'arbre stenose
de tronc (figure 3a).
Figure 2. Elimination d'un modifiant
A l'issue de l'étape 2.1, les arbres simplifiés
suivants sont examinés :
stenose severe
de le tronc commun gauche
stenose de tronc
Le premier et le dernier sont des arbres élémentaires.
Ils sont classés selon l'étape 2.2. Le deuxième arbre
est "défait" à son tour, en de (arbre 5) et le
tronc commun gauche. L'arbre correspondant à de est éliminé.
L'examen de le tronc commun gauche conduit à la décomposition
en le, éliminé, et tronc commun gauche. Ce
dernier arbre produit deux arbres élémentaires :
tronc
commun (par déconcaténation) et tronc gauche (par
élimination du modifiant SAdj commun). Au total, on obtient
quatre arbres élémentaires (figure 3).
Figure 3 : arbres élémentaires pour stenose severe
de le tronc commun gauche
La figure 4 montre le contenu de la table après le classement
des arbres dérivés correspondant à : stenose de
le tronc commun gauche, stenose severe de le tronc commun gauche,
stenose
de le tronc gauche, lesion de le tronc gauche, stenose significatif.
Chaque type d'arbre élémentaire renvoie aux arbres concrets
soit trouvés dans le corpus soit obtenus par simplification.
Figure 4 : table de classement d'arbres élémentaires
2.2.3 Remarques
Les simplifications opérées sont, on le voit, contrôlées
par la syntaxe, plus précisément par les relations présentes
dans l'arbre dérivé analysé. Les collocations que
mettent en évidence les arbres élémentaires correspondent,
sauf erreur dans l'analyse initiale (cf. 3.4), à des relations syntaxiques
avérées, à la différence d'une partie des travaux
sur les collocations qui examinent les rapprochements à l'intérieur
d'une "fenêtre" de quelques mots. Ici, dans stenose severe de
le tronc gauche, gauche ne sera pas mis en relation avec stenose,
puisqu'il ne peut modifier ce nom.
L'algorithme de simplification suppose de noter comme des modifiants
un certain nombre d'ajouts. Nous nous inspirons ici de la représentation
des ajouts dans les grammaires d'arbres adjoints (Abeillé 93). Un
arbre contenant un ajout est un arbre dont un des fils porte la même
étiquette que la racine de l'arbre et qui comporte plusieurs fils.
Par exemple, dans [SAdj [Adv tres][SAdj [Adj serre]]], l'arbre [Adv
tres] est un ajout, un modifiant de [SAdj [Adj serre]]. Oter
le modifiant consiste à remplacer la racine de l'arbre par le constituant
dominé de même catégorie. On obtient dans le cas présent
[SAdj
[Adj serre]]. A contrario, un arbre proche, comme [SAdj [Adv tres]
[Adj serre]] ne peut pas être simplifié comme l'arbre
précédent. Cette optique nous a conduit à présenter
comme des modifiants nombre de constituants, ce qui peut être discuté
d'un point de vue linguistique (pour les déterminants par exemple).
2.3 Remanier des arbres dérivés
Par définition, cet algorithme de simplification peut relier
uniquement des arbres complexes avec les arbres plus élémentaires
dont ils dérivent en défaisant le résultat de l'application
successive des règles de la grammaire (émondage des ajouts
et déconcaténation).
Par contre, il ne permet pas de rapprocher des arbres qui ne peuvent
pas être analysés comme les descendants (versus les ancêtres)
l'un de l'autre. Ainsi l'arbre correspondant à severite de les
stenose et celui associé à stenose severe n'ont
pas d'arbre élémentaire en commun qui permettrait de les
relier, alors même qu'ils sont en relation de paraphrase et que cette
relation s'appuie sur la morphologie dérivationnelle.
Les méta-règles développées par C.
Jacquemin pour extraire des variantes d'entrées terminologiques
complexes (Jacquemin 94) ont précisément pour fonction de
prendre en entrée un arbre arbitrairement complexe et répondant
à certaines contraintes et de produire en sortie un autre arbre
à la structure et/ou aux informations associées remaniées.
Elles supposent des arbres dont les noeuds ne se limitent pas à
de simples étiquettes, comme ceux qui ont été présentés
dans la sous-section précédente, mais sont constitués
d'un ensemble de traits, c'est-à-dire d'associations entre un trait
et une valeur. Cela permet d'associer à ces noeuds des informations
arbitraires. Par ailleurs, on peut indiquer un partage de valeur entre
des traits associés à des noeuds distincts. Cette représentation
est celle des grammaires d'unification (Shieber 90; Abeillé 93).
La figure 5 établit l'équivalence entre un des arbres examinés
précédemment (3b) et une représentation où
les noeuds portent une information complexe :
Figure 5 : deux représentations d'un arbre
Dans l'arbre b, le sous-arbre [N stenose] correspond à
un seul noeud où N est la valeur du trait cat(égorie)
et
stenose celle du trait lemme. Les noeuds correspondant
aux entrées lexicales comprennent également des informations
morphologiques : genre et nom pour [N stenose], nombre seul pour
[Adj
severe]. Les constituants non terminaux possèdent également
ces informations. Enfin, les indices entre chevrons indiquent le partage
de valeur entre différents traits. Le SN dominant [N stenose]
a même genre et même nombre que ce dernier.
La méta-règle de la figure 6 prend en entrée
un arbre du type de celui de la figure 5 et produit en sortie un autre
arbre, de structure
[SN [SN N][SP Prep [SN N]]] dans lequel le lemme
du premier nom a pour valeur celle du trait dénominal de
l'adjectif de l'arbre de départ (flèche b), tandis le lemme
du second nom a pour valeur celle du trait lemme du nom de l'arbre
de départ (flèche a). Cette méta-règle n'est
applicable que si l'arbre de départ examiné possède
les caractéristiques idoines.
Figure 6 : une méta-règle
L'arbre de la figure 5, stenose severe, peut être
apparié avec l'arbre-source de la méta-règle. Cela
permet de générer l'arbre-cible correspondant à severite
de stenose, comme le montre la figure 7 :
Figure 7 : résultat de l'application de la méta-règle
Les méta-règles fournissent l'équivalent
des transformations qu'utilisent N. Sager et ses collaborateurs dans un
cadre harrissien. Elles permettent de remanier la structure d'un arbre
ou les informations qui lui sont associées.
Dans le système de classement que nous utilisons, elles servent
en outre à transformer les arbres tels qu'ils sont fournis par LEXTER
(figure 8) pour qu'ils aient une structure favorisant les simplifications
recherchées.
Figure 8 : un arbre LEXTER et son correspondant par méta-règle
3. Elimination de modifiants syntaxiques
La décomposition d'un arbre dérivé en arbres élémentaires
repose partiellement sur l'élimination de modifiants syntaxiques.
Cette opération met en évidence des élisions en discours
révélatrices. Elle isole des collocations flexibles. Elle
pousse à examiner le rapport entre certaines élisions et
des conversions.
3.1 Elisions discursives[11]
En corpus, nous parlons d'élision discursive lorsqu'une séquence
sert d'abréviation à une plus longue, qui représente
la forme canonique, et qui, comme telle, doit probablement figurer dans
une terminologie du domaine. Par exemple, l'arbre élémentaire
correspondant à angine instable se rencontre directement
(figure 9, a, b et c), mais il résulte également de la simplification
de angine de poitrine instable, où de poitrine est
considéré comme un modifiant de
angine et est enlevé
(figure 9d). En contexte, donc, angine instable semble constituer
une abréviation d'angine de poitrine. Dans une perspective
d'extraction terminologique, il ne s'agit pas d'indiquer qu'angine de
poitrine peut être abrégé en angine, ce
qui, dans le discours médical, produirait éventuellement
une indexation défectueuse, mais de noter qu'angine, lorsqu'il
est suivi d'instable, peut renvoyer à angine de poitrine.
Figure 9 : angine stable dans des arbres dérivés
D'autres exemples figurent dans le corpus :
Forme développée Forme abrégée
infarctus de le myocarde ancien sequelle de un infarctus ancien
infarctus de le myocarde ancien
inaugural
stenose de le tronc commun gauche stenose de le tronc gauche
lesion de
atteinte severe de le tronc commun le tronc gauche
gauche
stenose severe de le tronc
commun gauche
angine de poitrine stable malade avec angine stable
Tableau 1 : élisions en corpus
3.2 Collocations flexibles
Certains arbres élémentaires manifestent l'existence de
collocations flexibles. C'est le cas en particulier de l'alternance entre
un modifieur évaluatif et une indication de localisation, qui peut
se réaliser soit par une séquence nominale, dans ce cas post-posée
à l'adjectif évaluatif, soit par un adjectif dénominal
qui fait alors interposition entre le N et l'adjectif évaluatif.
N severe (de N) N adj severe
atteinte severe de les artere presence de une atteinte coronarien
coronaire atteinte severe de le severe
tronc commun gauche
lesion severe existence de lesion atheromateux
severe montre de les lesion
tritronculaire severe lesion
atheromateux severe lesion
coronarien severe lesion
tritronculaire severe
obstruction severe de une artere obstruction coronarien severe
coronaire
Tableau 2 : alternance avec severe
L'élimination, lors de la simplification, de l'adjectif
localisant qui fait interposition renforce l'association entre cette classe
de noms et l'indication du degré.[12]
3.3 Elisions, conversions et dénominations
Les affections corporelles localisées présentent une localisation
qui s'exprime de trois façons différentes :
1) de l artere <adjectif1><adjectif2>?[13]
atteinte severe de les artere coronaire
obstruction severe de une artere coronaire
obstruction de les artere coronaire
obstruction severe de une artere coronaire
stenose serre de l artere circonflexe
stenose severe de les artere coronarien
2) de la <N-Adjectif1><adjectif2>?<adjectif3>?
lesion sur la circonflexe distale
occlusion de la coronaire droite moyen
occlusion de la coronaire droite proximal
occlusion de la deuxieme diagonal
occlusion de l interventriculaire anterieur
occlusion total de l interventriculaire anterieur
stenose serre de la carotide interne droit
stenose serre de l interventriculaire anterieur
3) <adjectif1><adjectif2>?
presence de une atteinte coronarien severe
lesion distale
lesion circonflexe distale
obstruction coronarien severe
occlusion coronaire
persistance de une occlusion coronaire droit
occlusion coronaire droit
occlusion de la deuxieme diagonal
occlusion coronaire droit
apparition de une stenose proximal circonflexe
persistance de une stenose circonflexe moyen
stenose coronarien egal
On le voit, artere {interventriculaire diagonal coronarien ...}
peut être remplacé par une conversion : la {interventriculaire
diagonal coronarien ...}, voire par l'adjectif directement.[14]
Cette distribution amène à interpréter différemment
artere
{interventriculaire diagonal coronarien ...} et un nom quelconque suivi
de ces adjectifs. Si les séquences [SN [SN N][SAdj [Adj {interventriculaire
diagonal coronarien ...}]]] forment effectivement des hyponymes du
nom tête (une stenose coronarien est bien une sorte de stenose,
tout comme une artere coronarien est un type d'artere), d'un
point de vue conceptuel, la relation n'est pas du même ordre. Dans
le cas de formes représentant des affections corporelles localisées,
il s'agit d'une localisation, comme l'indique d'ailleurs la possibilité
de la préposition
sur (lesion sur la circonflexe distale).
Pour
artere, il s'agit d'un moyen d'identification. Par ailleurs,
la possibilité de conversion est l'indice de l'existence d'une dénomination.
Elle isole au sein des hyponymes par composition (Kleiber & Tamba 90)
ceux qui sont distingués dans la communauté parlante étudiée,
puisque le locuteur table sur la facilité pour l'interlocuteur à
restituer le nom élidé.[15]
Ces conversions "stables" sont à distinguer des anaphores, comme
dans l'exemple construit pour la circonstance : "Deux sténoses ont
été repérées. La circonflexe est la plus sévère."
Notons en outre que si la conversion est un bon indice d'un fonctionnement
dénominatif, la non-existence d'une conversion n'est pas un signe
en sens inverse.[16] Si le corpus indique
qu'artere peut être modifié par {auriculoventriculaire
bissecteur brachial femoral humeral pulmonaire renal sous-clavier},
on n'y rencontre pas de conversion mettant en jeu ces adjectifs.
Les mises en relation opérées[17]
soulignent dans le corpus l'importance des conversions concernant les artères,
et indiquent des sous-types d'artères à faire figurer à
coup sûr dans le réseau conceptuel et terminologique du domaine
: {carotide circonflexe coronaire diagonal interventriculaire}.
On ajoutera d'ailleurs aux exemples montrés ci-dessus : pontage
sur la marginal gauche
3.4 Artéfacts liés à des analyses erronées
L'examen des localisations dans la sous-section précédente
montre qu'une séquence comme N {coronaire carotide interventriculaire}{droite
gauche}, avec N différent d'artere demande que l'on restitue
artere.
L'analyse proposée par LEXTER, dans la mesure où le corpus
présente des séquences N {coronaire carotide interventriculaire}
non suivi de {droite gauche}, consiste à faire de {droite
gauche} un modifieur du groupe N {coronaire carotide interventriculaire}.
En fait, cette analyse est défectueuse. Les localisants {droite
gauche} modifient l'adjectif dénotant une artère. Il
faut donc analyser
occlusion coronaire droite comme [SN [SN occlusion][SAdj
[SAdj [Adj coronaire]][Adj droite]]] et non comme [SN [SN occlusion
[SAdj [SAdj [Adj coronaire]]][Adj droite]]. Ces analyses défectueuses
débouchent sur des arbres élémentaires non pertinents
:
occlusion droite, fonction droite etc.
4. Obtention de classes d'équivalence
Les arbres élémentaires permettent de constituer des classes
d'équivalence. Ainsi, à partir de l'arbre correspondant
à
stenose severe, on peut créer deux classes de contextes.
La première, [SN [N stenose][SAdj [Adj ?]]] comprend l'entrée
severe,
la seconde, [SN [N ?][SAdj [Adj severe]]], l'entrée
stenose.
Au fur et à mesure de l'examen des arbres élémentaires
dégagés par l'algorithme de simplification, de nouvelles
classes sont créées, et les classes déjà existantes
sont complétées. A l'issue du traitement sur l'ensemble des
groupes nominaux fournis par LEXTER, on obtient par exemple les ensembles
suivants pour les deux classes prises en exemple :
[SN [N stenose][SAdj [Adj ?]]] : {aortique circonflexe coronarien
diagonal egal hypertrophique moyen musculaire negligeable non-significatif
predominant proximal recent residuel reste serre severe significatif ulcere
valvulaire }
[SN [N ?][SAdj [Adj severe]]] : {alteration angor atteinte bradycardie
dysfonctionnement lesion maladie obstruction stenose }.
On connait donc tous les adjectifs qui commutent avec severe
dans le contexte [SN [N stenose][SAdj [Adj ?]]] et réciproquement
tous les noms qui commutent avec stenose dans le contexte [SN
[N ?][SAdj [Adj severe]]].
4.1 Un outil de saisie rapide du fonctionnement lexical
Pour chaque entrée lexicale, sont fournis les schémas
dans lesquels elle figure. Si l'on examine ceux[18]
de stenose :
[nom_prep=a_stenose] 1 f., ~? : {maladie }
[nom_prep=de_stenose] 2 f., ~? : {apparition persistance }
[stenose_prep=sur_nom] 1 f., ~? : {pont }
[stenose_prep=a_nom] 1 f., ~? : {risque }
[stenose_prep=avec_nom] 1 f., ~? : {succes }
[stenose_prep=de_nom] 6 f., ~? : {artere carotide fourche
interventriculaire pont tronc }
[nom_adj=stenose] 1 f., ~? : {premier }
[stenose_adj] 20 f., ~? : {aortique circonflexe coronarien diagonal
egal hypertrophique moyen musculaire negligeable non-significatif
predominant
proximal recent residuel reste serre severe significatif
ulcere
valvulaire }
les comportements majeurs de stenose se dégagent.
Stenose
est à la fois un processus (ce que montrent les schémas :
{apparition
persistance} de stenose et l'emploi d'adjectifs indiquant un déroulement
dans le temps : stenose {recent residuel}) et, éventuellement,
une partie d'un processus plus vaste : maladie de stenose. Stenose
se caractérise partiellement par les localisations qui lui sont
associées : la préposition
sur, les schémas
stenose de {artere carotide fourche interventriculaire pont tronc }
et leurs réalisations dénominales : stenose {aortique
circonflexe coronarien diagonal moyen proximal valvulaire }. Par ailleurs,
d'autres adjectifs indiquent soit le degré (stenose {negligeable
non-significatif predominant serre severe significatif}) soit un déroulement
dans le temps (stenose {recent residuel }). On comparera cette appréhension
synthétique avec celle que fournit par exemple les concordances
de sténose et sténose fournies en annexe.[19]
On notera les malformations de certains séquences : stenose
avec succes (il manque probablement un opérateur comme dilatation
de) et premier stenose qui est analysé [SN [SN N][SAdj
[Adj stenose]]].
Nous avons mis en gras les formes qui sont seules à apparaître
dans un schéma donné en cooccurrence avec stenose.
Ainsi, dans la construction [SN [SN N][SAdj [Adj serre]]], seule
stenose
peut occuper la position N, tandis que dans [SN [SN N][SAdj [Adj severe]]],
elle commute avec {alteration angor atteinte bradycardie dysfonctionnement
lesion maladie obstruction }. On voit les constructions propres à
stenose. A l'inverse, on peut vouloir examiner les proximités
que révèlent les constructions partagées.
4.2 Classes d'équivalence et proximités entre formes
Le traitement fournit ces constructions. En voici une partie pour
stenose,
en se limitant aux adjectifs indiquant le degré et aux constructions
indiquant un processus.
[nom_?_adj_non-significatif] 4 f., ? : {lesion plaque reduction stenose
}
[nom_?_adj_severe] 9 f., ? : {alteration angor atteinte bradycardie
dysfonctionnement lesion maladie obstruction stenose }
[nom_?_adj_significatif] 3 f., ? : {atherosclerose lesion stenose
}
[nom_?_adj_recent] 5 f., ? : {etude infarctus myocarde passage stenose
}
[nom_?_adj_residuel] 4 f., ? : {angor image lesion stenose }
[nom_apparition_prep_de_nom_?] 3 f., ? : {ischemie phenomene stenose
}
[nom_persistance_prep_de_nom_?] 2 f., ? : {occlusion stenose }
Ces deux ensembles sont révélateurs. On y trouve un hyperonyme
(phenomene) validant le rattachement de stenose aux processus.
On remarque également la proximité avec des noms de maladie
(infarctus, atherosclerose) et avec d'autres noms indiquant des
affections corporelles localisées : lesion, occlusion, ischemie.
Par ailleurs, sont calculées les proximités avec d'autres
formes, sur la base du nombre de constructions partagées.[20].
Forme Constructions partagées
lesion 8 [nom_?_prep_de_nom_tronc] [nom_?_adj_significatif]
[nom_?_adj_severe] [nom_?_adj_residuel]
[nom_?_adj_non-significatif] [nom_?_adj_diagonal]
[nom_?_adj_coronarien] [nom_?_adj_circonflexe]
atteinte 4 [nom_?_prep_de_nom_tronc]
[nom_?_prep_de_nom_artere] [nom_?_adj_severe]
[nom_?_adj_coronarien]
segment 3 [nom_?_prep_de_nom_artere] [nom_?_adj_proximal]
[nom_?_adj_circonflexe]
obstruction 3 [nom_?_prep_de_nom_artere] [nom_?_adj_severe]
[nom_?_adj_coronarien]
calcification 3 [nom_?_adj_proximal] [nom_?_adj_coronarien]
[nom_?_adj_aortique]
injection 3 [nom_?_prep_de_nom_carotide]
[nom_?_prep_de_nom_artere] [nom_?_adj_coronarien]
spasme 3 [nom_?_prep_de_nom_artere] [nom_?_adj_egal]
[nom_?_adj_coronarien]
plaque 3 [nom_?_prep_de_nom_interventriculaire]
[nom_?_adj_proximal] [nom_?_adj_non-significatif]
artere 3 [nom_?_adj_diagonal] [nom_?_adj_coronarien]
[nom_?_adj_circonflexe]
occlusion 3 [nom_persistance_prep_de_nom_?]
[nom_?_prep_de_nom_interventriculaire]
[nom_?_prep_de_nom_carotide]
Tableau 3 : constructions partagées par stenose et d'autres
formes
La proximité majeure est avec lesion (8 constructions
partagées), mais d'autres formes sont ainsi mises en évidence
: intuitivement proches (obstruction, occlusion, voire
calcification,
plaque
et spasme), à fonctionnement hyperonymique (atteinte).
D'autres rapprochements étonnent et demandent un examen plus précis
: organes ou parties d'organes (artere,
segment), actes médicaux
(injection).
4.3 Groupes de formes proches
Cet examen des proximités d'une forme aux autres formes sur la
base des constructions partagées peut être généralisé
et automatisé, pour dégager les groupes de formes proches,
à un titre ou à un autre.
Si l'on considère les formes comme les noeuds d'un graphe, une
construction partagée peut représenter une arête reliant
deux noeuds. Par exemple, [NOM_?_ADJ_RESIDUEL] relie lesion
à stenose (tous deux peuvent y occuper la position N), mais
relie aussi chacun d'eux à angor et image. Lorsqu'on
calcule l'ensemble des arêtes entre les noeuds du graphe (ici les
1051 entrées lexicales figurant dans les 1252 groupes nominaux fournis
par LEXTER), on peut ensuite en extraire les sous-graphes de ce graphe
qui soient connexes, c'est-à-dire tels qu'il existe toujours une
chaîne (une suite d'arêtes) reliant deux noeuds quelconques.
Ce calcul produit ici trois sous-graphes connexes. Le programme fournit
aussi les graphiques correspondants.[21]
Le premier sous-graphe connexe correspond à 37 noms et 49 arêtes,
le second à 18 adjectifs, que relient 25 arêtes, le troisième,
nettement plus modeste, à 3 noeuds et 2 arêtes. Nous donnons
un premier aperçu du principal sous-graphe connexe, sans les étiquettes
des arêtes, pour plus de lisibilité (figure 10).
Figure 10 : le premier sous-graphe connexe
Cette première approche du principal sous-graphe connexe
met en évidence une hétérogénéité
certaine. Ce sous-graphe mêle en effet des organes et des sites corporels
(artère, branche, réseau, ventricule,
interventriculaire,
carotide,
sillon), des affections corporelles localisées (stenose,
occlusion,
calcification, lesion,
atteinte,
obstruction), des actes médicaux (pontage,
revascularisation,
angioplastie),
une affection particulière (ischemie,
infarctus, myocarde,
necrose, territoire), et enfin des groupes au fonctionnement
peu clair : {cinetique fonction hypertrophie apex pression} et {position
incidence}. Nous avons donc séparé ce sous-graphe en
deux graphes (figures 11 et 12), en y reprenant à chaque fois artere
qui tient un rôle central.
Figure 11 : 1ère composante connexe (début), les affections
corporelles localisées
Les liens manifestent l'existence d'une famille de formes au fonctionnement
proche : {plaque occlusion stenose lesion calcification spasme obstruction
atteinte}, que nous appellerons les affections corporelles localisées.
La relation de localisation y est fondamentale, sous trois modalités
: de {artere tronc}, de <nom d'artère> (carotide,
interventriculaire),
adjectif lié à une artère spécifique (coronaire,
coronarien,
diagonal,
circonflexe). Le degré est un attribut fondamental
: {significatif non-significatif severe important severite}. Ces
affections sont à la fois des processus :
persistance de {occlusion
stenose}, {stenose lesion} residuel, et des entités mesurables
: diametre de obstruction, existence de {calcification lesion}.22
Les constructions manifestent en outre la relation /a pour partie/
entre artere et {tronc segment} : {segment tronc} de artere
(les autres N de artere, désignant des processus, comme injection,
n'entrent pas dans cette relation). Par contre, elles ne permettent pas
de caractériser précisément les relations entre les
formes proches. Dans la série {plaque occlusion stenose lesion
calcification spasme obstruction atteinte}, les formes sont-elles synonymes
(et tout particulièrement lesion et stenose, qui partagent
le plus de contextes) ? Existe-t-il un ou des hyponymes ? Il en va de même
pour la série {insuffisance maladie atherosclerose}. Cette
dernière série ne se relie d'ailleurs pas simplement à
la précédente : elle entre en effet dans la construction
:
diagnostic de ?, l'autre non. Les lesions et autres
stenoses
ne se diagnostiqueraient pas, mais se constateraient.
Figure 12 : 1ère composante connexe (fin), les sites
Le reste de la première composante connexe complète
la vision des sites esquissée. Carotide, interventriculaire
et
branche rejoignent artere dans les entités visées
par des affections : spasme sur {artere branche}, stenose de
{artere carotide interventriculaire}. Par contre, elle n'éclaire
pas vraiment les relations entre artere et reseau, branche,
sillon
et ventricule. Les simples contextes élémentaires
ne permettent pas d'établir ces relations.
Un petit ensemble d'/interventions/ se dessine : {angioplastie
revascularisation pontage}. Les contextes mettent d'ailleurs en avant
plutôt un dessein (indication de {revascularisation pontage angioplastie},
possibilite
de {revascularisation angioplastie}). Le lien avec artere se
fait par la localisation sous la forme d'adjectifs dénominaux :
angioplastie {circonflexe coronaire}. Parce qu'elle rentre aussi
dans les constructions N normal et atteinte de N,
fonction
est rapprochée d'artere. Toutefois, si les contextes précisent
qu'il peut s'agir de fonction {myocardique ventriculaire}, ils n'indiquent
pas, à la différence d'artere, ce qui affecte, détériore
fonction.
On ne peut détecter les processus responsables des {alteration
recuperation} de fonction.
Le groupe {infarctus myocarde necrose territoire ischemie} se
caractérise par un mode de localisation propre {anterieur inferieur
apcial lateral} et les attributs d'un processus situé dans le
temps : absence de {ischemie infarctus}, sequelle de {infarctus
necrose}, infarctus {recent ancien}.
Figure 13 : 2ème composante connexe, les adjectifs
Le réseau des adjectifs est dominé par les localisants,
en particulier ceux qui renvoient à des artères : {marginal
coronaire circonflexe diagonal coronarien}. L'opposition {droit
gauche} constitue en fait une localisation auxiliaire, dans des contextes
comme artere circonflexe gauche. Il s'agit là d'un artefact
lié l'analyse effectuée par LEXTER (cf. 3.4). Autre localisation,
celle qui concerne la famille d'infarctus : {anterieur apical
inferieur}. Coronaire et coronarien sont-ils synonymes
? Malgré le nombre élévé (7) de contextes partagés
et leur appartenance commune à la clique[23]
{coronaire
coronarien diagonal circonflexe}, coronarien est associé
à des adjectifs évaluatifs {severe significatif important},
ce qui n'est pas le cas de coronaire. Notons enfin la présence
d'antonymes
{residuel severe} et {important minime} qui interviennent
d'ailleurs dans les mêmes contextes.
5 Evaluation et perspective
La simplification d'arbres, par la normalisation qu'elle opère,
accroît le poids de certaines collocations (on l'a vu pour severe
supra). Simplifier des arbres dérivés aboutit à éliminer
certains modifiants. Cette opération met en évidence la place
de certaines élisions en discours, ainsi que la flexibilité
de certaines collocations. Elle conduit à voir dans certaines conversions
la marque d'un fonctionnement dénominatif.
Les classes de contextes issues des arbres élémentaires
permettent une saisie rapide du fonctionnement d'une entrée lexicale
et des liens qu'elle entretient avec d'autres entrées. L'examen
global de ces liens, par le biais de la construction des sous-graphes connexes
du graphe des formes, est plus problématique. Les associations qui
y figurent mélangent des relations diverses : antonymie (residuel
/ severe), possible synonymie (lesion / stenose), scalarité
(moyen / proximal / distal). Elles permettent toutefois un dégrossissage
sémantique : mise au jour des entités principales du corpus,
établissement de certaines relations.
La relative imprécision des résultats présentés
a plusieurs origines. En premier lieu, en s'en tenant aux groupes nominaux,
LEXTER et par conséquent notre traitement, qui se situe en aval,
ne disposent pas des informations apportées par les verbes, et sur
lesquels s'appuient par exemple N. Sager et son équipe. Si rien
n'empêche théoriquement d'appliquer la même démarche
(simplification et remaniement d'arbres) à des arbres syntaxiques
de phrases entières, on ne dispose pas encore pour le français
d'analyseur robuste utilisable dans cette optique. En second lieu, les
groupes nominaux retenus par LEXTER sont ceux dont le patron de surface
est le plus favorable à un fonctionnement comme terme.[24]
Les syntagmes prépositionnels avec de y sont prépondérants.
Or même si de n'est pas vraiment une préposition incolore[25],
elle n'en résiste pas moins fortement à l'interprétation.
En troisième lieu, nous avons voulu pousser à ses limites
une exploration purement automatique. La normalisation effectuée,
et partant la classification, est restée relativement fruste par
rapport à l'analyse fouillée par N. Sager et ses collaborateurs
de leurs corpus d'"amorçage". La taille relativement restreinte
du corpus utilisé constitue probablement une autre limitation. Par
ailleurs, dans un corpus spécialisé, le corpus ne permet
pas de repérer toutes les relations : bon nombre d'entre elles font
partie de l'implicite partagé par les locuteurs du sous-langage
et n'"affleurent" pas. Dans notre corpus, il en va sans doute ainsi de
bon nombre des relations méronymiques (que le ventricule soit une
partie du coeur par exemple). Enfin, l'omni-présence des localisations,
sous leurs diverses réalisations, rapproche des entrées lexicales
dont l'horizon sémantique est par ailleurs bien distinct (cf. l'examen
du premier sous-graphe connexe).
Deux voies complémentaires s'offrent pour avancer dans
cette construction en corpus de classes sémantiques pour un sous-langage
donné. La première est dans la lignée des traitements
symboliques effectués pour cette expérience. Il s'agit tout
d'abord d'utiliser systématiquement les méta-règles
pour le repérage des phénomènes d'élision et
de conversion. Nous voulons en outre nous servir des prédicats nominaux
(essentiellement les déverbaux), pour typer sémantiquement
les noms qui entrent dans des constructions Nprédicatif Prép
N2. Certains Nprédicatifs attendent en effet un N2 dénotant
un évènement (altération, début),
d'autres une entité (épaississement). Trois obstacles
se dressent toutefois. En premier lieu, le N2 n'est pas forcément
un argument du Nprédicatif (traitement de routine / traitement
de la fibrillation). En second lieu, des phénomènes de
coercion de type peuvent intervenir : arrêt attend bien un
nom d'évènement, mais dans arrêt du tabac, il
y a coercion : c'est de consommation du tabac qu'il s'agit. Enfin,
il n'est pas sûr que les types obtenus soient très spécifiques.
Si certains noms prédicatifs précisent davantage le type
du N2 (diagnostic), ils sont plutôt l'exception. La seconde
voie entend s'appuyer sur des critères statistiques pour aider à
isoler des aggrégats de comportements syntactico-sémantiques.[26]
Un point de départ serait d'utiliser le poids des collocations dégagées.
En définitive, nos choix sont assez proches de ceux de
G. Grefenstette (Grefenstette 94). Nous n'attribuons pas d'étiquettes
sémantiques à la main, nous n'utilisons pas d'informations
lexicales complexes (contraintes de sélection, cadre de sous-catégorisation),
nous n'utilisons pas de base de connaissance construite pour un domaine
particulier. Au contraire, nous avons recours à des techniques indépendantes
du domaine traité (analyse syntaxique robuste et partielle), incorporant
peu de "savoir". Le traitement est entièrement automatique, et donc
reproductible, à la fois pour la recherche des arbres élémentaires
et pour la mise au point de classes de formes et l'examen des proximités
entre formes.[27]
Remerciements
Cette recherche a bénéficié du soutien du programme
Composition
lexicale et modélisation, financé par le CRSH (Centre
pour le Recherche en Sciences Humaines - Canada), et dirigé par
P. Barbaud (UQAM - Université du Québec à Montréal).
Ce programme associe l'ELI (Equipe Linguistique et Informatique - ENS de
Fontenay St Cloud), l'IRIN (Institut de Recherche en Informatique de Nantes)
et l'UQAM.
Les travaux du groupe Terminologie et Intelligence Artificielle
ont contribué également à la mise au point de l'approche
présentée.
Nous remercions en outre Cécile Fabre[28]
(IRISA) et, à l'ELI (ENS de Fontenay St Cloud), Serge Fleury, Elie
Naulleau et Adeline Nazarenko pour leurs précieuses remarques sur
des états de ce travail.
Nous remercions particulièrement Didier Bourigault, à
la fois pour nous avoir fourni les résultats de LEXTER sur le corpus
étudié et pour avoir examiné et discuté les
données issues de la simplification d'arbres et les analyses en
découlant.
Références
Abeillé A. (1993), Les nouvelles syntaxes : grammaires d'unification
et analyse du français, Armand Colin, Paris.
Assadi H., Bourigault D. (1995), "Classification d'adjectifs extraits
d'un corpus pour l'aide à la modélisation de connaissances",
Actes
Journées de l'Analyse des Données Textuelles.
BARBAUD, P. (1992), "Recycling words", in Theoretical Analysis
in Romance Linguistics, Lauefer C., Morgan T. (eds.), Amsterdam, John
Benjamins, pp. 197-217.
Barbaud, P. (1991), "Fondements grammaticaux de l'acquisition
des mots composés", Revue canadienne de Linguistique, 36(2),
pp. 215-253.
Bartning, I. (1987), "L'interprétation des syntagmes binominaux
en `de' en français contemporain", Cahiers de Grammaire,
12, Toulouse Le Mirail, pp. 1-64.
Church, K., Hanks, P. (1989), "Word Association Norms, Mutual
Information, and Lexicography", in Proceedings, 27th Annual Meeting
of the Association for Computational Linguistics (ACL'89), Vancouver,
CA, Juin 1989, pp.~76--83.
Corbin, D. (1993), "Hypothèses sur les frontières
dérivationnelles de la composition nominale", Cahiers de grammaire,
17, Université de Toulouse Le Mirail, pp. 26-55.
Dachelet, D. (1994), Sur la notion de sous-langage, Thèse
de doctorat en sciences du langage, Université Paris VIII.
Daille, B. (1994), Approche mixte pour l'extraction automatique
de terminologie~: statistique lexicale et filtres linguistiques, Thèse
de doctorat en informatique, Université Paris 7.
Dunham, G. (1986),"The Role of Syntax in the Sublanguage of Medical
Diagnostic Statements", in Analyzing Language in Restricted Domains
: Sublanguage Description and Processing, Grishman, R., Kittredge,
R. (eds.), Lawrence Erlbaum Associates, Hillsdale, New Jersey, pp. 175-194.
Fradin B. (1984), "Anaphorisation et stéréotypes
nominaux",
Lingua, vol. 4, pp. 325-369.
Friedman, C. (1986),"Automatic Structuring of Sublanguage Information
: Application to Medical Narrative", in Analyzing Language in Restricted
Domains : Sublanguage Description and Processing, Grishman, R., Kittredge,
R. (eds.), Lawrence Erlbaum Associates, Hillsdale, New Jersey, pp. 85-102.
Friedman C. (1987a),"Information Structures in Clinical Narrative",
in
Medical Language Processing : Computer Management of Narrative Data,
Sager, N. Friedman C., Lyman M. (eds.), Addison-Wesley, pp. 61-80.
Friedman, C. (1987b),"A Sublanguage Narrative Processor", in Medical
Language Processing : Computer Management of Narrative Data, Sager,
N. Friedman C., Lyman M. (eds.), Addison-Wesley, pp. 81-111.
Grefenstette, G. (1994), Exploration in automatic thesaurus
discovery, Kluwer Academic Publishers.
Gross, G. (1994), "Classes d'objets et description des verbes",
Langages,
115, pp. 15-30.
Gross, G., Vivès, R. (1986) "Les constructions nominales
et l'élaboration d'un lexique-grammaire", Langue Française,
69, pp. 5-27.
Habert, B. (1991), "OLMES, a versatile and extensible parser in
CLOS", In
Proceedings Techniques of Object-Oriented Languages and Systems
(TOOLS'91), Paris.
Habert, B., Fabre, C. (à paraître), "Simplifying
Nominal Parse Trees to Find Semantic Types in Corpus", in Proceedings
ALLC-ACH.
Habert, B., Jacquemin, C. (1993), "Noms composés, termes,
dénominations complexes : problématiques linguistiques et
traitements automatiques", TAL, 34(2), pp. 5-42.
Hischman, L. (1986),"Discovering Sublanguage Structures", in Analyzing
Language in Restricted Domains : Sublanguage Description and Processing,
Grishman, R., Kittredge, R. (eds.), Lawrence Erlbaum Associates, Hillsdale,
New Jersey, pp. 211-234.
Jacquemin, C. (1994), "Recycling Terms into a Partial Parser",
In
Proceedings, 4th Conference on Applied Natural Language Processing
(ANLP'94), Stuttgart, pp 113-118.
Jayez, J., Godard, D. (1995), "Principles as lexical methods",
in
Proceedings of the AAAI Workshop on representation and acquisition
of lexical knowledge, Stanford University.
Kleiber, G., Tamba, I. (1991), "L'hyponymie revisitée :
inclusion et hiérarchie", Langages, 98, pp. 7-32.
Labelle, J. (1986), "Grammaire des noms de maladie", Langue
Française, 69, pp. 108-125.
Lehrberger, J. (1986)","Sublanguage Analysis", in Analyzing
Language in Restricted Domains : Sublanguage Description and Processing,
Grishman, R., Kittredge, R. (eds.), Lawrence Erlbaum Associates, Hillsdale,
New Jersey, pp. 19-38.
Le Pesant, D. (1994), "Les compléments nominaux du verbe
lire : une illustration de la notion de 'classe d'objets'", Langages,
115, pp. 31-46.
London, C. (1987),"The Healthcare Lexicon", in Medical Language
Processing : Computer Management of Narrative Data, Sager, N. Friedman
C., Lyman M. (eds.), Addison-Wesley, pp. 137-144.
Marsh, E. (1986),"General Semantic Patterns in Different Sublanguages",
in
Analyzing Language in Restricted Domains : Sublanguage Description
and Processing, Grishman, R., Kittredge, R. (eds.), Lawrence Erlbaum
Associates, Hillsdale, New Jersey, pp. 103-128.
Mattick, P. (1987),"Sublanguage Analysis of Articles in Lipid
Metabolism", in
Medical Language Processing : Computer Management of
Narrative Data, Sager, N. Friedman C., Lyman M. (eds.), Addison-Wesley,
pp. 221-252.
Mel'cuk, I. (1988), "Paraphrase et lexique dans la théeorie
linguistique Sens-Texte", Lexique, 6, pp. 3-54.
Mélis-Puchulu, A. (1991), "Les adjectifs dénominaux
: des adjectifs de <<relation>>", Lexique, pp. 33-60.
Pêcheux, M. (1969, Analyse automatique du discours,
Dunod, Paris.
Rastier, F., Cavazza, M., Abeillé, A. (1994), Sémantique
pour l'analyse : de la linguistique à l'informatique, Masson,
Paris.
RIEGEL, M., (1991), "Ces noms dits composés, arguments
et critères", Studia Romanica Posnaniensia, 16, Poznan.
Sager, N. (1981), Natural Language Information Processing :
A Computer Grammar of English and Its Applications, Addison Wesley",
Reading, Massachusetts.
Sager, N. (1986),"Sublanguage : Linguistic Phenomenon, Computational
Tool", in
Analyzing Language in Restricted Domains : Sublanguage Description
and Processing, Grishman, R., Kittredge, R. (eds.), Lawrence Erlbaum
Associates, Hillsdale, New Jersey, pp. 1-18.
Sager, N. (1987a),"Computer Processing of Narrative Information",
in Medical Language Processing : Computer Management of Narrative Data,
Sager, N. Friedman C., Lyman M. (eds.), Addison-Wesley, pp. 3-22.
Sager, N. (1987b),"Information Formatting of Medical Literature",
in Medical Language Processing : Computer Management of Narrative Data,
Sager, N. Friedman C., Lyman M. (eds.), Addison-Wesley, pp. 197-220.
Slocum, J. (1986),"How One might Automatically Identify and Adapt
to a Sublanguage : An Initial Exploration", in Analyzing Language in
Restricted Domains : Sublanguage Description and Processing, Grishman,
R., Kittredge, R. (eds.), Lawrence Erlbaum Associates, Hillsdale, New Jersey,
pp. 195-210.
Smadja, F. (1993) "Retrieving Collocations from Text : Xtract",
Computational
Linguistics, 19(1), Mars, pp.~143-178.
Wolff, S. (1987),"Automatic Coding of Medical Vocabulary",.in
Medical
Language Processing : Computer Management of Narrative Data, Sager,
N. Friedman C., Lyman M. (eds.), Addison-Wesley, pp. 145-162.
Annexe :
=== Requête num 1 === sténose -> F= 64
--- Concordance --- tri après
s nécessaire de corriger cette sténose. 4deg.) une
hypertension artériell
s le territoire en aval d' une sténose. Cette exploration
est actuelle
tère en amont ou en aval de la sténose. Or des études
récentes démontr
ne lésion monotronculaire avec sténose à 80%
d' une diagonale. Actuell
eure mais l' apparition d' une sténose à 90 % sur
la circonflexe moyen
rotide primitive droite et une sténose au niveau de la bifurcation
car
entriculaire antérieure. Cette sténose avait été
dilatée tout en négli
irrégularités pariétales( une sténose
avait été suspectée lors d' une
on sur la coronaire droite( la sténose cédant à
une pression de 12 atm
modérée, la persistance d' une sténose circonflexe
moyenne serrée. La
e angioplastie de cette double sténose complexe est réalisée
avec un e
ricule gauche secondaire à une sténose d' une première
artère diagonal
ographie a mis en évidence une sténose de l' IVA distale
sub- occlusiv
l' angioplastie le fait que la sténose de l' IVA était
récente bien qu
ulcérée de l' IVA moyenne, une sténose de l'
IVA très distale et entre
r a repris en rapport avec une sténose de l' interventriculaire
antéri
é droite/ Gauche ainsi qu' une sténose de la coronaire
droite au segme
une angioplastie d' une double sténose de la droite, sans
qu' on note
dilatation est réalisée sur la sténose du pont
mammaire extrêmement to
début de l' investigation, une sténose du tronc commun
de la coronaire
ommun gauche. En l' absence de sténose du tronc commun gauche,
des inj
e de principe pour exclure une sténose du tronc commun gauche,
dont la
hnique habituelle. Une fois la sténose du tronc exclue, l'
artère coro
coronarographie qui montre une sténose du tronc gauche ainsi
qu' une o
coronarographie qui montre une sténose du tronc gauche, une
occlusion
et circonflexe. Toutefois, une sténose égale ou supérieure
à 50 p. 100
rien obstruction- coronarienne sténose en- amont en- aval
pontage artè
nce des deux marginales. Cette sténose est dilatée
avec succès. Les su
arographie met en évidence une sténose excentrée
de l' ordre de 70% da
ographie a mis en évidence une sténose inhomogène
de l' interventricul
cienne de la coronaire droite, sténose longue irrégulière
inhomogène d
ortueuse. Le guide franchit la sténose mais cela n' est pas
possible a
ne. Elle permet de déceler une sténose musculaire
hypertrophique sous-
dilatée tout en négligeant une sténose non
significative et distale de
gonale proximale suivie d' une sténose plus distale visualisée
par col
teuse d' une maladie mitrale à sténose prédominante.
Lors d' un passag
distale, l' apparition d' une sténose proximale circonflexe
modérée,
rmis de mettre en évidence une sténose récente
et très serrée de l' IV
at s' en trouve amélioré et la sténose résiduelle
est inférieure à 30
rmet de mettre en évidence une sténose serrée
de l' IVA au tiers proxi
a coronarographie retrouve une sténose serrée de l'
IVA proximale à ra
Le cathétérisme objective une sténose serrée
de l' IVA responsable d'
téralité droite/ gauche et une sténose serrée
de l' artère circonflexe
prinzmétal en rapport avec une sténose serrée
de l' interventriculaire
lle met en évidence une double sténose serrée
de l' interventriculaire
ration sous- clavière. 3deg.) une sténose serrée
de la carotide interne d
ne hypokinésie antérieure. Une sténose serrée,
diagonale et circonflex
ximal du segment distal et une sténose serrée du genou
inférieur de la
arographie met en évidence une sténose serrée
du tronc coronaire gauch
un patient stable, montre une sténose serrée et d'
allure thrombotiqu
tera l' examen. En présence de sténose sévère
du tronc commun de l' ar
ue gauche, afin d' exclure une sténose sévère
du tronc commun gauche.
d' autres sont porteurs d' une sténose sévère
du tronc commun gauche o
seau coronaire irrégulier sans sténose significative.
Le VG est normal
nimes du réseau coronaire sans sténose significative.
Le test au Méthe
ans la foulée, de même qu' une sténose significative
au niveau d' une
' amont avec apparition d' une sténose sub- occlusive circonflexe
prox
alcifiées et excentrées et une sténose subocclusive
de l' interventric
aussitôt réalisée montrant une sténose
très serrée de l' artère circon
ontrait la constitution d' une sténose très serrée
de l' interventricu
circonflexe mais il existe une sténose très serrée
sur l' interventric
alisée qui met en évidence une sténose ulcérée
de l' IVA moyenne, une
farctus avait alors montré une sténose ulcérée
non significative du se
rtrophique sous- aortique, une sténose valvulaire aortique
ou un prola
=== Requête num 2 === sténose -> F= 64
--- Concordance --- tri avant
entriculaire antérieure. Cette sténose avait été
dilatée tout en négli
nce des deux marginales. Cette sténose est dilatée
avec succès. Les su
ne hypokinésie antérieure. Une sténose serrée,
diagonale et circonflex
teuse d' une maladie mitrale à sténose prédominante.
Lors d' un passag
ne lésion monotronculaire avec sténose à 80%
d' une diagonale. Actuell
s nécessaire de corriger cette sténose. 4deg.) une
hypertension artériell
rien obstruction- coronarienne sténose en- amont en- aval
pontage artè
ommun gauche. En l' absence de sténose du tronc commun gauche,
des inj
tera l' examen. En présence de sténose sévère
du tronc commun de l' ar
e angioplastie de cette double sténose complexe est réalisée
avec un e
une angioplastie d' une double sténose de la droite, sans
qu' on note
lle met en évidence une double sténose serrée
de l' interventriculaire
cienne de la coronaire droite, sténose longue irrégulière
inhomogène d
tère en amont ou en aval de la sténose. Or des études
récentes démontr
on sur la coronaire droite( la sténose cédant à
une pression de 12 atm
at s' en trouve amélioré et la sténose résiduelle
est inférieure à 30
hnique habituelle. Une fois la sténose du tronc exclue, l'
artère coro
ortueuse. Le guide franchit la sténose mais cela n' est pas
possible a
l' angioplastie le fait que la sténose de l' IVA était
récente bien qu
dilatation est réalisée sur la sténose du pont
mammaire extrêmement to
nimes du réseau coronaire sans sténose significative.
Le test au Méthe
seau coronaire irrégulier sans sténose significative.
Le VG est normal
ration sous- clavière. 3deg.) une sténose serrée
de la carotide interne d
et circonflexe. Toutefois, une sténose égale ou supérieure
à 50 p. 100
ricule gauche secondaire à une sténose d' une première
artère diagonal
rtrophique sous- aortique, une sténose valvulaire aortique
ou un prola
prinzmétal en rapport avec une sténose serrée
de l' interventriculaire
r a repris en rapport avec une sténose de l' interventriculaire
antéri
' amont avec apparition d' une sténose sub- occlusive circonflexe
prox
distale, l' apparition d' une sténose proximale circonflexe
modérée,
eure mais l' apparition d' une sténose à 90 % sur
la circonflexe moyen
s le territoire en aval d' une sténose. Cette exploration
est actuelle
ontrait la constitution d' une sténose très serrée
de l' interventricu
modérée, la persistance d' une sténose circonflexe
moyenne serrée. La
d' autres sont porteurs d' une sténose sévère
du tronc commun gauche o
gonale proximale suivie d' une sténose plus distale visualisée
par col
ne. Elle permet de déceler une sténose musculaire
hypertrophique sous-
ximal du segment distal et une sténose serrée du genou
inférieur de la
rotide primitive droite et une sténose au niveau de la bifurcation
car
alcifiées et excentrées et une sténose subocclusive
de l' interventric
téralité droite/ gauche et une sténose serrée
de l' artère circonflexe
arographie met en évidence une sténose excentrée
de l' ordre de 70% da
arographie met en évidence une sténose serrée
du tronc coronaire gauch
alisée qui met en évidence une sténose ulcérée
de l' IVA moyenne, une
rmet de mettre en évidence une sténose serrée
de l' IVA au tiers proxi
rmis de mettre en évidence une sténose récente
et très serrée de l' IV
ographie a mis en évidence une sténose de l' IVA distale
sub- occlusiv
ographie a mis en évidence une sténose inhomogène
de l' interventricul
ue gauche, afin d' exclure une sténose sévère
du tronc commun gauche.
e de principe pour exclure une sténose du tronc commun gauche,
dont la
circonflexe mais il existe une sténose très serrée
sur l' interventric
début de l' investigation, une sténose du tronc commun
de la coronaire
aussitôt réalisée montrant une sténose
très serrée de l' artère circon
coronarographie qui montre une sténose du tronc gauche ainsi
qu' une o
coronarographie qui montre une sténose du tronc gauche, une
occlusion
un patient stable, montre une sténose serrée et d'
allure thrombotiqu
farctus avait alors montré une sténose ulcérée
non significative du se
ulcérée de l' IVA moyenne, une sténose de l'
IVA très distale et entre
dilatée tout en négligeant une sténose non
significative et distale de
Le cathétérisme objective une sténose serrée
de l' IVA responsable d'
irrégularités pariétales( une sténose
avait été suspectée lors d' une
é droite/ Gauche ainsi qu' une sténose de la coronaire
droite au segme
ans la foulée, de même qu' une sténose significative
au niveau d' une
a coronarographie retrouve une sténose serrée de l'
IVA proximale à ra
=== Requête num 3 === sténoses -> F= 10
--- Concordance --- tri après
se coronarienne significative( sténoses coronariennes égales
ou supéri
arctus du myocarde ancien sans sténoses coronariennes ou
avec lésions
malades avec angine stable) de sténoses du tronc commun de
l' artère c
ère. Toutefois, la présence de sténoses du
tronc commun de la coronair
e ont à la coronarographie des sténoses égales
ou supérieures à 50 p.
n localisé au niveau des trois sténoses, plus marqué
au niveau de la c
mortalité, par la détection de sténoses serrées
du tronc de la coronai
l' intervention. De plus, les sténoses sévères
des artères coronarien
niquement. Habituellement, ces sténoses sont estimées
visuellement en
e. Il s' agit en fait de trois sténoses successives de l'
artère coron
=== Requête num 4 === sténoses -> F= 10
--- Concordance --- tri avant
niquement. Habituellement, ces sténoses sont estimées
visuellement en
mortalité, par la détection de sténoses serrées
du tronc de la coronai
ère. Toutefois, la présence de sténoses du
tronc commun de la coronair
malades avec angine stable) de sténoses du tronc commun de
l' artère c
e ont à la coronarographie des sténoses égales
ou supérieures à 50 p.
l' intervention. De plus, les sténoses sévères
des artères coronarien
arctus du myocarde ancien sans sténoses coronariennes ou
avec lésions
se coronarienne significative( sténoses coronariennes égales
ou supéri
e. Il s' agit en fait de trois sténoses successives de l'
artère coron
n localisé au niveau des trois sténoses, plus marqué
au niveau de la c
|