Sommaire des JADT 1998  

LA CONSTRUCTION D’UN LEXIQUE FONDAMENTAL DE POLYFORMES SELON LEUR USAGE*

 

Sergio Bolasco

Adolfo Morrone

Univ. "La Sapienza" di Roma

ISTAT - DCPT/A

bolasco@scec.eco.uniroma1.it

morrone@axrma. uniroma1.it

 

Résumé

In this paper, on the basis of a corpus of millions of occurrences coming from different types of language (spoken/written, formal/informal), we build a basic dictionary of complex lexical units, intended as fixed expressions or lexias, according to their use in current language. A strong integration between linguistic resources and statistical evidences makes possible to value the incidence of the various grammatical expressions (adverbial, prepositional) in relation to nominal groups and phrasal verbs. Among other results, it is shown that grammatical expressions may have a sizable weight on the choice of priorities for the definition of local grammars in order to eliminate lexical ambiguities.

1. Introduction

... nous estimons que le vocabulaire de base contient cinq fois plus de noms composés que de mots simples, toute partie du discours confondues. Il est donc indispensable de recenser et décrire ces unités mal répertoriées dans les dictionnaires courants.(Silberztein, 1993)

Les études sur des unités lexicales complexes (polyformes [Salem 1987 : 50] en tant que lexies) ont jusqu'à présent négligé l’exploration des structures lexico-grammaticales en fonction de leur usage concret dans le langage courant. L’intérêt de mettre en rapport certaines structures linguistiques avec leur usage (Bolasco 1997a, Fiala et al. 1997) a plusieurs conséquences : d’une part rendre disponibles des index "limités" de polyformes, mais, en même temps, largement représentatifs du langage standard ; d’autre part avoir à disposition des outils fondés sur une base statistique, utiles soit pour la désambiguisation d’un texte soit pour un choix d’unités de langage le plus pertinent possible par rapport au contenu du discours.

Dans ce travail, on considère l’incidence différente de deux classes de polyformes obtenues en opérant une distinction entre groupes nominaux ou verbes idiomatiques et séquences figées à caractère grammatical (locutions adverbiales, adjectivales, prépositives et conjonctives). Les éléments de la première classe, en général, mettent en évidence les thématiques plus spécifiquement liées à chaque corpus particulier, donc strictement dépendantes du contexte (normalement les expressions verbales apparaissent moins fréquentes et donc difficiles à évaluer du point de vue statistique). Les éléments de la seconde classe semblent relativement moins liés au contexte général et répandus de manière plus diffuse dans les différents types de discours, que les groupes nominaux et les locutions verbales.

On traite ici le problème de la saisie, parmi ces classes, des polyformes les plus fréquentes, ce qui implique, au moment de leur lexicalisation, une réduction significative de l’importance des formes simples constituantes, dans les index de fréquence des corpus analysés.

Une des finalités de notre étude est la mise au point d’une liste de polyformes qui soit la moins étendue possible (seulement quelques milliers), mais ayant un impact important en termes d’occurrences sur le lexique standard. On pourra la construire surtout pour les locutions, puisque les groupes nominaux sont théoriquement infinis (si on pouvait collecter tous les domaines de la connaissance). Pour ces derniers on se limite à considérer ceux qui font partie d’une connaissance non spécialisée, c’est-à-dire de l’expérience courante dans le langage de tous les jours (presse, roman, télévision, dialogue).

A ce niveau, donc, nous voudrions aboutir à la construction d’un dictionnaire de base de polyformes dont chaque composante soit, de fait, reconnue au niveau grammatical, ce qui permettrait de résoudre automatiquement un nombre non négligeable d’homographies pour la lemmatisation d’un texte. Ce dictionnaire peut être considéré comme une sorte de lexique fondamental parce qu’il contiendra seulement des polyformes saisies en fréquence avec les expansions (par exemple : P_N, P_N_ADJ), insertions (P_N, P_ADJ_N, P_DET_N) ou retournements (P_N_ADJ, P_ADJ_N) plus communes, mais pas forcément avec toutes leurs variations admissibles du point de vue linguistique.

Pour atteindre ce résultat, il est essentiel d’établir un lexique de fréquence d’usage de polyformes ayant un certain poids en occurrences, ce qui permet de tester le taux de recouvrement du dictionnaire dans le texte. L’indice d’usage (Muller 1977) nous permettra d’évaluer le nombre d’occurrences en fonction de la dispersion dans les différentes parties du corpus que nous prendrons en compte en tant qu’échantillon de langage courant.

2. Problèmes, définitions et hypothèses

Tout cela pose un certain nombre de problèmes.

A) Dans une liste de polyformes on trouvera des entrées sous forme de lemmes (ex. : locutions verbales) et d’autres en formes graphiques (adverbe, certains groupes nominaux), où leur signification peut même varier en passant du pluriel au singulier.

B) On sait bien, par exemple, que du côté sémantique on ne pourra jamais dire, même dans les cas les plus favorables, si une expression figée a toujours une et une seule signification. Dans notre cadre, on se limite à dire qu’une séquence est sémantiquement bloquée si, au sens de la statistique, son signifié le plus immédiat est largement majoritaire (par exemple, au-delà de 95% des cas). Au contraire, si cette condition ne se vérifie pas, on dira que l’expression figée reste ambiguë : on peut choisir de ne pas la lexicaliser et renvoyer à ses concordances pour la catégoriser. Pour qu’une expression puisse être lexicalisée il faut donc qu’elle soit non-ambiguë. Pourtant, nous voudrions chercher surtout les structures grammaticales avec une signification cristallisée. Celles-ci se révèlent cruciales au cours des étapes de la levée des ambiguïtés des séquences qui présentent plusieurs mots ambigus adjacents.

C) Dans la suite on montrera comment une intégration entre ressources linguistiques et approche statistique peut aider à dépasser au moins quelques-unes parmi ces difficultés. En fait, aucune liste rédigée par des linguistes ne peut être exhaustive. D’ailleurs, on ne peut envisager la réalisation d’un tel dictionnaire à l’aide d’un corpus aussi étendu soit-il, comme le montre Silberztein avec deux corpus de "Le Monde" (1995). Au contraire, l’accumulation d’inventaires de segments répétés provenants de divers corpus peut au fur et à mesure améliorer la capacité de saisie d’un dictionnaire automatique, aussi sous le point de vue des formes graphiques quasi-homographes dans lesquelles peuvent se présenter les séquences, parfois différentes de leur forme canonique listée dans le dictionnaire (pie’/pié, fino a ora/fino ad ora/fin ora), y compris les variations orthographiques usuelles (perchè/perché).

D) Pour ce qui concerne la reconnaissance de certaines structures il faut prévoir une stratégie d’action, qui puisse saisir, par exemple, les différences entre <in ordine> (adv.) <in ordine a> (prép.), qui ont une signification complètement différente. En général, il faut les détecter de la plus longue à la plus courte (Bolasco 1997b), afin d’éviter la redondance, et donc apprécier la fréquence nette des deux structures. D’ailleurs, comme dans l’exemple suivant, il faut lexicaliser les segments dans un ordre correct : a) <più presto possibile> (81 occ.), b) <al più presto> (102), c) <più presto> (196), d) <al più> (161), c’est-à-dire toujours du segment le plus long au plus court, mais en donnant la priorité, en cas de parité, à la présence de deux formes principales (pleines). Et, après cette démarche, il demeure une question : combien des 59 (=161-102) occurrences du syntagme <al più> sont vraiment un adverbe et non plutôt une partie d’une combinaison libre ?

A l’heure actuelle, d’une part les logiciels de type statistique (voir LEXICO, by Salem) capturent tous les segments répétés donc identiques (en formes graphiques) et redondants, d’autre part les logiciels de type linguistique (voir INTEX, by Silberztein) détectent toutes les expressions définies dans un dictionnaire (lemmes et/ou formes graphiques) ou seulement celles décrites par une grammaire locale, sans aucune limitation de fréquence minimum ou de longueur, en comprenant donc aussi des quasi-segments.

Pour faire face à ces problèmes, du point de vue linguistique, notre étude s’inscrit dans le cadre des travaux de l’équipe dirigée par M. Gross sur les phrases figées en français au L.A.D.L. à Paris 7. Etudes qui ont été reprises par Annibale Elia et d’autres à l’université de Salerne pour l’italien. Parmi les classes possibles de syntagmes (ou combinaisons de mots) distinguées pour différents degrés de figement (niveau de variabilité de cooccurrences), suivant Elia (1996), nous considérons les "combinaisons à distribution fixe" ou totalement figées, pour lesquelles on ne peut modifier aucun élément sans que le sens change et donc qui ont un fort degré de cristallisation sémantique. Seulement sous des telles conditions, ces expressions peuvent être considérées comme des unités lexicales, et donc - pour une analyse de contenu - des lexies. Pour les verbes et les groupes nominaux cela se révèle plus facile : <rendersi conto>, <colpo di telefono>. Pour les adverbes composés et les autres locutions grammaticales cela est moins évident. Par exemple, dans le cas de : <chiaro e tondo>, <da un momento all’altro> il n’y a pas d’ambiguïté, mais pour : <da parte>, <in grande>, <una volta>, l’ambiguïté existe et peut être levée seulement à partir de l’analyse du contexte local plus large.

3. Les ressources linguistiques

Du point de vue linguistique, notre collecte de données, en tant que listes ("théoriques") de polyformes, exploite plusieurs sources : tout d’abord les résultats des études sur les adverbes composés (Elia 1996) et les autres groupes de locutions ou sur les groupes nominaux avec la propriété du calcul "non compositionnel" (Silberztein 1993 ; Elia 1995). Parmi ces derniers, on a éliminé ceux qui dérivent d’une forte spécialisation terminologique. Ce "dictionnaire" a été étendu en utilisant comme références pour le langage standard, soit celles sur l’italien parlé (LIP, De Mauro 1993), soit des études sur les grammaires comparées (Geysen 1990), soit des données Eulogos (Mastidoro 1995). Le croisement de ces sources nous a permis, pour l’instant, de disposer d’une liste unifiée avec 8.414 entrées, pour l’ensemble des classes. Elle contient 4.024 adverbes et/ou adjectifs, 421 prépositions, conjonctions et interjections, 2.962 noms et 1.007 verbes idiomatiques.

4. La base de données statistiques

Dans toute approche statistique, les choix d’échantillonnage sont cruciaux. Dans ce cas nous voulions relever le poids statistique des polyformes, à partir d’un ensemble de textes suffisamment étendu, résultant de différentes typologies de langage et composé de genres très divers comme peuvent l’être l’écrit vs le parlé, le discours formel et institutionnel vs le dialogue informel, les articles de la presse vs la littérature (roman ou vulgarisation scientifique), tels qu’on puisse considerer avoir reconstruit un échantillon, pas trop insatisfaisant, du langage courant. On a exploité une vingtaine de sources différentes, qui peuvent être ramenées à 3 typologies de langage : écrit (presse, littérature, documents publics), oral (dialogues, entretiens, discours tant directs <un à tous> qu'indirects <via mass media>) et mixte c’est-à-dire écrit/oralisé ou oral/transcrit (répliques aux débats parlementaires, histoires de vie, réponses aux questions ouvertes, compositions scolaires). Tout ces textes, dans la plupart des cas, sont relatifs à la période des années ‘80-’90.

Le corpus (par la suite POLIF), formé de 4,142 millions d’occurrences au total (en volume c’est l’équivalent d’une encyclopédie d’une douzaine de tomes de 1000 pages chacun), produit un vocabulaire de 124.305 chaînes de caractères différents, dimensions que rarement on a l’occasion d’exploiter simultanément. On peut considérer cet ensemble comme un échantillon de langue de taille moyenne (dans ce cas : 28MBytes). Dans notre perspective, il faut se méfier des corpus énormes mais homogènes : au contraire, on estime que la variété d’un corpus est fondamentale plus que ses dimensions. Les syntagmes de mots, encore plus que les mots, sont sensibles au contexte et aux situations d’énonciation.

5. Intégration statistique-linguistique

En fonction d’une analyse de contenu, il est évident que toutes les entrées d’un dictionnaire de polyformes ne peuvent pas forcément justifier une lexicalisation, au moment du dépouillement d’un corpus. On peut voir cette problématique à partir d’un exemple proposé par Elia (1995 : 139). Le critère qui inspire le choix de la lexicalisation met en jeu la fréquence. Normalement, on justifie la formation d’une nouvelle entrée dans le vocabulaire d’un corpus à analyser, si la lexicalisation apporte une signification sans devoir perdre trop d’information autour de la forme "pivot". Cela implique d’une part la non compositionalité de la lexie complexe par rapport aux formes simples constituantes, mais de l’autre la sauvegarde des occurrences désambiguïsées de ces dernières (qui ne seront pas lexicalisées), lorsqu’elles dépassent le seuil de fréquence choisi pour l’analyse de contenu.

5.1 Quelques évidences empiriques

Deux circonstances, parfois concomitantes, ont orienté notre étude du côté statistique.

1) On constate une importance particulière, en nombre d’occurrences, de certains mots du langage commun dans les lexiques de fréquence de la langue (LIF, VELI, LIP pour l’italien ; TLF pour le français). Dans POLIF c’est le cas de : cosa, parte, prima, quanto, tempo, modo, etc. (tab. 1). On les retrouve aux premiers rangs, sans justification apparente en termes de contenu. Mais, en observant la distribution des formes constituantes des expressions figées, on s’aperçoit qu’elles dépassent en effectifs la moitié des 500 premières formes simples de POLIF. Cette concentration décroît avec le rang et il existe une corrélation forte entre nombre d’occurrences et quantité d’expressions figées.

Tab. 1 - Exemple de mots simples (grammaticaux et pleins) de POLIF, générateurs de polyformes du dictionnaire de base, avec % des occurrences employées dans ces polyformes

FG polyformes occurrences

(gramm) (nombre de) de la FG

di 226 151990

che 33 93852

a 115 58388

in 233 55553

per 54 49884

un 28 48057

da 32 23235

più 38 19915

al 40 17726

nel 32 14560

......

FG polyformes occ. % occ FG

(mot plein) en polyf

cosa 16 5523 62,5

parte 16 5397 57,8

prima 16 5114 50,0

quanto 16 4580 87,4

tempo 19 3766 70,8

modo 17 3559 58,0

vita 11 3296 34,0

meno 17 2900 79,1

volta 18 2670 79,9

punto 12 2440 68,2

momento 12 2301 60,7

2) Parfois on découvre un grand déséquilibre dans les fréquences des flexions d’un même lemme. On considère que deux formes fléchies sont isofréquentes si leur différence en nombre d’occurrences ne dépasse pas plus d’une fois l’ordre de grandeur de la plus petite (Bolasco 1993). Au contraire cette différence est souvent de plusieurs ordres de grandeur, entre 2 et 10, parfois au-delà de 50 fois. Un exemple : le mot modo (au singulier = 3559 occ.) par rapport à modi (son pluriel = 293 occ.) produit une différence d’isofréquence (DIF) de 12,15.

Il est bien connu que les mots plus utilisés sont aussi les plus ambigus, du fait de leurs emplois multiples qui recouvrent de vastes signifiés. En général on peut faire l’hypothèse que la fréquence des formes fléchies, par un effet purement aléatoire, tend à ne pas se différencier significativement. Étant donné un certain niveau de fréquence du mot (milliers, centaines, dizaines, unités), il s’agit donc d’analyser le pourquoi de cette différence en occurrences, quand elle se présente. A parité de nombre de fonctions grammaticales on note, par exemple, qu’il y a un comportement différent parmi les formes fléchies des noms abstraits par rapport à celui des noms concrets : ces derniers sont plus souvent dans la situation d’isofréquence.

Mais si les fonctions grammaticales sont différentes en passant d’une flexion à l’autre du même lemme (molto : ADJ/PRO/ADV, molta : ADJ/PRO), il est alors difficile que le hasard seul conduise au même niveau d’occurrence. Encore plus si une forme fait partie d’une ou plusieurs locutions. On peut facilement trouver une confirmation de ce qu’on vient de dire, dans les cas où une seule locution est suffisante pour créer la condition de non-isofréquence. Par exemple : accordo a 991 occurrences (accordi : 251) et DIF vaut 2,9. En soustrayant les 448 occurrences de la locution <d’accordo>, on revient autour de l’isofréquence (DIF=1,1). Un cas limite est celui de l’adverbe <tutto sommato> (110 occ.) : il absorbe le 96% des 114 occurrences de la forme simple <sommato>. On trouve que l’autre flexion du participe passé <sommati> compte seulement 4 occurrences (après la levée des ambiguïtés, DIF=1).

6. L’index de fréquence des polyformes

Au moment de la rédaction de ce travail, pour des raisons techniques nous n’avons pu calculer les séquences que sur 9998 formes graphiques au seuil de 30 occurrences, avec un taux de recouvrement du texte de 90%. On obtient ainsi 16.430 séquences en tant que segments répétés (et redondants) de longueur inférieur à 7 mots, présents au moins 30 fois, qui à niveau d’usage, pour le lexique fondamental, peuvent se réduire à 15.

Afin de considérer l’usage des syntagmes saisis dans POLIF, on calcule leur dispersion dans les diverses sources. Dans l’index d’usage de séquences ainsi obtenu, on observe aux premiers rangs - à part les combinaisons libres vides (<e di>, <e non>, ...) - presque uniquement des locutions (les groupes nominaux et les verbes idiomatiques ne surviennent qu’au-delà du 100e rang).

En croisant l’inventaire des segments de POLIF avec les 8.414 expressions figées collectées selon les critères linguistiques déjà énoncés, on trouve 1.125 structures communes, dont 343 adverbes et 105 prépositions. Apparemment le bilan semblerait pauvre, mais il faut rappeler qu’il provient d’une forte sélection à priori, cohérente avec le choix d’étudier le langage plus courant, donc "fréquenté" et à la portée de tout le monde. D’ailleurs, dans ce comptage, certains quasi-segments (c’est-à-dire séquences qui se distinguent de leur structure de base dans certaines insertions) qui pourraient avoir une fréquence inférieure à 30, ne sont pas compris : donc ce croisement sous-estime encore sensiblement le phénomène. En se limitant aux locutions grammaticales, le fait que les 89,7% de leur dictionnaire ne sont pas reconnus, signifie que, pour l’instant, cet ensemble ne semblerait pas très usuel. On peut aussi penser qu’il y a une différence significative entre une conception "abstraite" du lexique potentiel dessiné par les linguistes et un lexique d’usage construit sur la base d’un échantillon de langue courante.

Au contraire dans l’inventaire des segments on retrouve quelques centaines de lexies qui n’étaient pas présentes dans notre dictionnaire actuel. Ce résultat confirme qu’il est toujours possible d’intégrer, dans un dictionnaire, des structures très communes qu’on n’attendait pas.

6.1 Détails sur les expressions figées et les classes d’adverbes

Ces 1125 structures sont générées à partir de 795 mots simples pleins qui représentent 0,6% du vocabulaire de POLIF mais recouvrent 22% des occurrences du corpus. En général, 24% des occurrences de ces 795 mots pleins font partie des expressions figées reconnues par notre dictionnaire. En considérant que la moitié des occurrences des 795 mots simples de POLIF constituant des segments répétés sont ambigus, on constate qu’une grande partie de ceux-ci pourront être automatiquement désambiguisés. Les occurrences des formes ambiguës qui font partie des structures reconnues par le dictionnaire sont au nombre de 98.873 et équivalent à 26% du total de leur occurrences. Cela veut dire que la reconnaissance de ces polyformes permet d’enlever automatiquement un quart des ambiguïtés de ces occurrences

Pour certains mots très fréquents, le pourcentage de formes comprises dans des expressions figées est toutefois bien supérieur au 24% déjà cité. Les mots qui dépassent beaucoup cette moyenne, à part les noms propres ou géographiques, sont les mots constituants des expressions adverbiales, prépositives et conjonctives parmi les plus fréquents dans l’index des mots simples (dernière colonne en tab. 1). Au contraire les groupes nominaux ("non compositionnels") sont bien plus faibles en fréquence par rapport aux locutions grammaticales et ils le sont encore plus en usage, à cause de leur dispersion mineure (tab. 2).

Si on utilise, pour filtrer les séquences, un indice statistique plus sensible aux mots pleins constituant les expressions (Morrone 1993, 1995), on trouve aux premiers rangs, parmi les premières 200 expressions figées, 15% de locutions grammaticales, 43% de groupes nominaux, 17% de noms propres et 6% de verbes. Le reste est composé de séquences non structurées.

Dans la tab. 2, on met en évidence quelques aspects de la distribution de fréquences des structures de polyformes présents dans le corpus. Ainsi sont également illustrées des classes du dictionnaire des adverbes composés : nous limitons ici l’analyse aux classes les plus importantes en effectifs : <PC>, <PDETC>, <CC>, <PAC>. Pour le détail des classes, voir Elia (1996).

En général l’analyse confirme que l'indice de dispersion [Muller Ch., 1977] permet de distinguer efficacement les groupes nominaux des locutions grammaticales [Morrone, 1995]. En particulier, les adverbes apparaissent assez dispersés dans le corpus, et le fait qu’ils ont des valeurs très semblables, entre 0,67 et 0,69, fait avancer l’hypothèse qu’il existe une forte dépendance du type de langage. Si on analyse la distribution des occurrences normalisées de ces quatre classes selon la typologie des parties du corpus POLIF, on note que ces polyformes sont généralement plus fréquentes dans le parlé qu’à l’écrit.

 

 

 

 

 

 

 

 

Tab. 2 : Classes de polyformes présentes dans le corpus POLIF et reconnues par le dictionnaire.*

Classe

Exemple

n° des

structures

% sur

total de la

classe

Indice

IS

moyen

Dispersion

moyenne

Fréquence d'usage moyenne

Fréquence absolue moyenne

Occurrences normalisées (x100.000)

Noms

punto di vista

258

 

0,68

0,48

38,08

75,83

472,2

Verbs

tener conto

112

 

0,50

0,63

113,10

175,52

474,5

Prépositions

fino a

99

 

0,14

0,69

133,28

179,53

429,0

Adverbes (en total)

343

 

0,21

0,68

89,39

122,77

1016,5

PC *

in particolare

172

19,7

0,19

0,68

93,41

130,38

541,3

PDETC *

in qualche modo

85

13,7

0,19

0,69

71,42

96,68

198,3

CC *

non solo

54

15,6

0,32

0,67

122,80

162,78

212,2

PAC *

in primo luogo

16

5,1

0,24

0,68

58,05

80,94

31,2

PCONG *

più o meno

6

4,5

0,10

0,62

79,09

108,50

15,7

CPC *

prima di tutto

4

3,9

0,12

0,66

60,11

90,75

8,76

PCPC *

a poco a poco

3

2,4

0,10

0,62

32,32

51,67

3,8

PCDC *

a prezzo di costo

2

0,8

0,10

0,77

68,63

89,00

4,3

PCA *

in caso contrario

1

0,3

0,19

0,42

14,98

36,00

0,9

* C=nom, adj ou adv. ; P=prép. ; DET=déterm. ; A=adj. ; D=de ; CONG=conj. ; pour le détail sur ces classes voir Elia (1996).

 

La fréquence moyenne des adverbes appartenant à la classe <PC> est de 540 occurrences tous les 100.000 mots dans l’écrit, et de 683 dans le parlé ; au contraire, pour la classe <CC> la fréquence moyenne dans le langage écrit est de 180, contre 260 dans le parlé.

7. Le lexique fondamental de polyformes selon l’usage

Une polyforme, en tant que séquence ou expression figée, appartiendra au lexique fondamental si elle possède au moins une des propriétés suivantes : a) être une expression figée non compositionnelle ou, de toute façon, une phrase toute faite ou idiomatique ; b) être une séquence avec une fréquence d’usage importante (<c’è>, <si tratta di>, etc) ; c) être une expression avec une dispersion élevée (on fait l’hypothèse que seulement les entrées avec une dispersion d’au moins 50% feront partie du lexique fondamental) ; d) être une séquence avec un fort degré d’absorption sur la forme simple pivot. A ce stade de l’étude, le lexique fondamental des polyformes (tab. 4), pour ce qui concerne les séquences au-dessus d’une dispersion 0,5, est composé à 75% de locutions grammaticales et à 11% de groupes nominaux, dont seulement une petite partie de ces derniers a une dispersion > 0,7. On note que - au dessous d’une dispersion 0,6 - les groupes nominaux perdent leur généralité et se rattachent à un type de discours : presse, politique, dialogue. Les polyformes restantes sont des verbes (avec une dispersion qui est très rarement supérieure à 0,5) ou des séquences non structurées à abandonner.

Au moment où nous écrivons, nous ne disposons pas encore des résultats de l’analyse des spécificités sur les différences entre les trois typologies de langage. Par contre, ce lexique fondamental, à travers ses structures les plus fréquentes, permet déjà de sélectionner la quantité et le type de grammaires locales (Silberztein 1993b) à mettre au point pour maximiser les levées automatiques d’ambiguïtés.

Tab. 3 - Premières locutions du lexique fondamental des polyformes

LOCUTION CAT. GR. CLAS USAGE DISP. OCC.

fino a PREP 1402,2 0,78 1801

di più ADV PC 1029,4 0,90 1137

non solo ADV CC 992,1 0,87 1133

in modo PREP 963,2 0,84 1152

prima di PREP 894,3 0,85 1049

si tratta di VERB 875,3 0,75 1167

una volta ADV * CC 873,9 0,88 992

da parte di PREP 802,4 0,77 1046

per esempio ADV PC 703,2 0,74 946

lo stesso ADV * CC 686,0 0,89 769

in particolare ADV PC 613,5 0,79 772

rispetto a PREP 605,0 0,72 839

per quanto riguarda REP 603,1 0,67 887

ad esempio ADV PC 590,4 0,75 787

a casa ADV PC 579,3 0,58 990

per cento ADV PC 506,7 0,67 754

di fronte a PREP 503,0 0,78 646

in grado di PREP 502,9 0,79 630

punto di vista NOM 473,1 0,75 625

nei confronti di PREP 443,1 0,74 600

quanto a PREP 379,2 0,68 556

all' interno di PREP 369,9 0,70 531

di nuovo ADV PC 367,5 0,79 460

in realtà ADV PC 364,3 0,84 432

davanti a PREP 364,0 0,73 500

grazie a PREP 363,6 0,76 480

a livello ADV PC 356,4 0,68 523

un anno ADV * CC 350,6 0,82 426

alla fine ADV PDETC 347,2 0,83 419

del resto ADV PDETC 344,3 0,76 449

un po' di PREP 337,4 0,69 489

pari a PREP 334,8 0,54 620

più o meno ADV PCONG 332,2 0,79 418

di fatto ADV PC 330,0 0,83 395

del tutto ADV PDETC 322,6 0,85 376

d' accordo ADV PC 319,3 0,71 448

un momento ADV * CC 302,3 0,75 400

in fondo ADV PC 298,0 0,73 404

* cette polyforme reste ambiguë

 

 

 

 

Références

Bolasco, S. (1997a). Meta-data and Strategies of Textual Data Analysis : Problems and Instruments, V International Conference of IFCS (Kobe - mars 1996), proceedings in Data Science, Classification and Related Methods, Tokio : Springer-Verlag.

Bolasco, S. (1997b). Some paradigms for a strategy of multidimensional analysis on textual data, in Giornate sulla "Classificazione e analisi dei dati", Gruppo italiano IFCS, 3-4 luglio Pescara.

D’Agostino, E. (1992). Analisi del discorso. Metodi descrittivi dell’italiano d’uso.. Napoli : Loffredo ed.

De Mauro, T., Mancini, F., Vedovelli, M., Voghera, M. (1993). Lessico di frequenza dell'italiano parlato, Milano : EtasLibri.

Elia, A. (1995). Per una disambiguazione semi-automatica di sintagmi composti : i dizionari elettronici lessico-grammaticali, pubblicato in Cipriani R., Bolasco S. (eds.), Ricerca qualitativa e computer., Milano : F. Angeli.

Elia, A. (1996). Per filo e per segno : la struttura degli avverbi composti in E. D’Agostino (ed.) Sintassi e semantica, ESI, Napoli, pp. 167-263

Fiala, P., Lafon, P., Piguet, M.F. (1997). La locution : entre lexique, syntaxe et pragmatique Pubbl. Inalf, collection "St Cloud", Paris : Klincksieck.

Geysen R., (1990). Dictionnaire des formes analogues en 7 langues, Paris-Louvain la Neuve : Duculot.

Mastidoro, N. (1995). Eulogos : sistema lessicale integrato di analisi linguistica, in Bolasco, S., Lebart, L., Salem, A. (eds.), JADT 1995 - Analisi statistica dei dati testuali, Roma : CISU, volume 1, pp. 211-218.

Morrone, A. (1993). Alcuni criteri di valutazione della significatività dei segmenti ripetuti, Comunicazione al convegno internazionale "Jadt 1993. Secondes Journées internationales d'Analyse statistique de Données Textuelles", Montpellier 21 22 ottobre 1993, Paris, TELECOM, 1993, pp. 299-309.

Morrone A., (1995). Una strategia di trattamento del testo per l’individuazione di variabili testuali rilevanti, in in Bolasco, S., Lebart, L., Salem, A. (eds.), JADT 1995 - Analisi statistica dei dati testuali, Roma : CISU, volume 1, pp. 135-142.

Muller, Ch. (1977). Principes et méthodes de statistique lexicale. Paris : Hachette. (re-imprimé par Champion en 1992).

Salem, A. (1987). Pratique de segments répétés. Publ. INalF, coll. St. Cloud, Paris : Klincksieck.

Silberztein, M. (1993). Les groupes nominaux productifs et les noms composés lexicalisés. Linguisticae Investigationes XVII, 2 : 405-425

Silberztein, M. (1993b). Dictionnaires électroniques et analyse automatique de textes. Le système INTEX. Paris : Masson.

Silberztein, M. (1995). Dictionnaires électroniques et comptage des mots in Bolasco, S., Lebart, L., Salem, A. (eds.), JADT 1995 - Analisi statistica dei dati testuali Roma : CISU, volume 1, pp. 93-102.

Sommaire des JADT 1998