[*] Equipe Linguistique et Informatique, ENS de Fontenay St Cloud, 31 avenue Lombart, 92260 Fontenay-aux-Roses, habert@msh-paris.fr

[**] Département de Linguistique, Université du Québec à Montréal, CP 8888, Succ. A, Montréal, Québec, H3C 3P8, {barbaud.philippe, dupuis.fernande}@uqam.ca

[***] Institut de Recherche en Informatique de Nantes, 3 rue du Maréchal Joffre, 44041 Nantes Cédex 01, Christian.Jacquemin@iut-nantes.univ-nantes.fr

[1] Voir (Dachelet 94) pour une présentation globale et un exemple d'application.

[2] Il semble que la démarche de Harris pour la mise au point de grammaires de sous-langages soit moins connue en France que l'utilisation de sa théorie pour la description de la langue générale (cf. les travaux du LADL). Paradoxalement, ce sont des études du discours politique qui ont exploré cette voie en France : l'analyse de discours automatique de M. Pêcheux (Pêcheux 69). Cf. aussi (Sueur 82).

[3] "Le trait distinctif d'un sous-langage est que pour certains sous-ensembles des phrases du langage, le phénomène de sélection, pour lequel on ne peut formuler de règles pour le langage dans son ensemble, fait partie de la définition de la grammaire. Dans un sous-langage, les classes de mots correspondant aux restrictions de sélection ont des frontières relativement nettes, ce qui reflète la division des objets du monde réel en classes qui sont clairement différenciées dans le domaine." (Sager 86)

[4] Par exemple pour ramener à une formulation canonique ces exemples (Friedman 87) : pain in left leg / patient complains of painful sensations in left leg / pain, left leg.

[5] "L'homogénéité sémantique des classes d'équivalence distributionnelle ne se révèle clairement que sur les phrases élémentaires. Il est donc nécessaire, pour les phrases réelles rencontrées, d'appliquer les transformations 'à l'envers' pour obtenir les structures de base." (Dachelet 94)

[6] London (London 87) fait état de 47 classes propres au corpus médical étudié.

[7] En utilisant la grammaire présentée dans (Sager 81).

[8] Ces documents, ainsi que les précédents, ont été soigneusement anonymisés.

[9] L'ensemble de ces moyens constitue SYCLAD (SYstème de Classification d'Arbres Dérivés), qui utilise une partie des fonctionnalités de l'analyseur pour formalismes d'unification OLMES (Habert 92).

[10] Ce sont les patrons les plus importants pour la formation d'unités polylexicales. Cf. (Daille 94) par exemple.

[11] On s'en tient à des élisions "courtes", reconstituables grâce au corpus. Il n'en va pas toujours ainsi. Lehrberger (Lehrberger 86) note : "/./ des cas extrêmes d'effacement résultant du savoir partagé par les spécialistes d'un domaine donné nécessitent pour leur explications des règles ou des principes pragmatiques qui dépassent le champ d'une grammaire normale." C'est ainsi que vol sous-clavier, dans le corpus, pourrait se paraphraser en "vol (diminution) de débit sanguin dans l'artère sous-clavière"...

[12]D'autres arbres dérivés ne manifestent pas cette alternance. Toutefois, ils soulignent l'importance du degré dans la description de la famille sémantique des maladies et affections corporelles : stenose severe de les artere coronarien, stenose severe de le tronc commun gauche, alteration severe de la fonction ventriculaire gauche, maladie tritronculaire severe, maladie coronarien severe, histoire de bradycardie severe, dysfonctionnement severe, malade avec angor severe

[13] Le ? signifie ici l'optionalité de cet adjectif.

[14] Les régularités sur l'ensemble de ces exemples autorisent cette conclusion. Toutefois, on ne trouve aucun exemple de "transformation" permettant de passer de la version avec artere avec la version avec conversion. Pour stenose par exemple, les noms d'artere en cause changent d'une construction à l'autre. La restitution automatique du nom élidé dans la conversion peut donc être délicate.

[15] Ce que pourrait manifester la possibilité de dire "cela, ça s'appelle l'artère coronarienne", tandis qu'on ne pourrait dire : "ça s'appelle la sténose coronarienne". N'oublions tout de même pas que nous ne disposons que du corpus, et pas de locuteurs du domaine étudié, et que des énoncés appellatifs ont peu de chance de figurer, à part dans les textes didactiques.

[16] Ainsi, dans l'univers des vins, on reprendra volontiers vin blanc par le blanc. Il en va de même pour le rouge. Par contre, cela n'est pas possible pour le vin jaune, probablement parce que la dénomination est d'un emploi plus restreint.

[17] Elles l'ont été manuellement. Rien n'empêcherait d'utiliser pour ce faire des méta-règles

[18] Le signe ~? renvoie à l'entrée lexicale qui apparaît dans cette construction en même temps que le pôle examiné.

[19] Ces concordances ont été réalisés avec Lexico, programme réalisé par André Salem au Laboratoire d'Etude des Textes Politiques (CNRS). Il est documenté dans (Lebart & Salem 94).

[20] N'ont été retenues ici que les formes partageant au moins trois constructions avec le pôle examiné, ici stenose.

[21] Il génère les noeuds et les arêtes pour le logiciel GraphX de manipulation de graphes sous X Window. GraphX permet ensuite de redisposer les noeuds de manière à ce que les résultats soient plus parlants. A la différence d'autres logiciels graphiques, GraphX "sait" ce qu'est un graphe et redessine en conséquence les arêtes lorsque les noeuds sont déplacés. GraphX a été développé par Serge Heiden (slh@ens-fcl.fr) à l'ELI (Equipe Linguistique et Informatique) de l'ENS de Fontenay St Cloud. Il est dans le domaine public.

²² On trouve d'ailleurs {degré estimation} de obstruction.

[23] Une clique est un graphe dans lequel chaque noeud est relié par une arête à tous les autres.

[24] La comparaison des résultats de 4.2 avec les concordances de sténose(s) en annexe donne une idée de ce qui est éliminé à cette étape : sténose à n %, sténose de l'IVA (IVA a-t-il été mal catégorisé par l'étiqueteur employé ?), sténose très serrée (3 occurrences, les adverbes de degré sont-ils considérés comme incompatibles avec un fonctionnement dénominatif ?).

[25] Voir par exemple (Bartning 92) sur l'interprétation des N de N.

[26] Dans l'optique par exemple de (Assadi & Bourigault 95).

[27] A une réserve près : si le programme fournit les noeuds et les arêtes des composantes connexes du graphe des formes, la répartition dans l'espace de ces noeuds, même si elle est contrainte par les arêtes existantes, est déjà une interprétation. Si "une théorie est un programme de perception" (Bourdieu), fournir une perception est à l'inverse déjà contraindre la théorisation.

[28] La présente étude prolonge en effet le travail présenté dans (Habert & Fabre 96).