LA CONSTRUCTION DUN LEXIQUE FONDAMENTAL DE POLYFORMES SELON LEUR USAGE*
Sergio Bolasco |
Adolfo Morrone |
Univ. "La Sapienza" di Roma |
ISTAT - DCPT/A |
bolasco@scec.eco.uniroma1.it |
morrone@axrma. uniroma1.it |
Résumé
In this paper, on the basis of a corpus of millions of occurrences coming from different types of language (spoken/written, formal/informal), we build a basic dictionary of complex lexical units, intended as fixed expressions or lexias, according to their use in current language. A strong integration between linguistic resources and statistical evidences makes possible to value the incidence of the various grammatical expressions (adverbial, prepositional) in relation to nominal groups and phrasal verbs. Among other results, it is shown that grammatical expressions may have a sizable weight on the choice of priorities for the definition of local grammars in order to eliminate lexical ambiguities.
1. Introduction
... nous estimons que le vocabulaire de base contient cinq fois plus de noms composés que de mots simples, toute partie du discours confondues. Il est donc indispensable de recenser et décrire ces unités mal répertoriées dans les dictionnaires courants.(Silberztein, 1993)
Les études sur des unités lexicales complexes (polyformes [Salem 1987 : 50] en tant que lexies) ont jusqu'à présent négligé lexploration des structures lexico-grammaticales en fonction de leur usage concret dans le langage courant. Lintérêt de mettre en rapport certaines structures linguistiques avec leur usage (Bolasco 1997a, Fiala et al. 1997) a plusieurs conséquences : dune part rendre disponibles des index "limités" de polyformes, mais, en même temps, largement représentatifs du langage standard ; dautre part avoir à disposition des outils fondés sur une base statistique, utiles soit pour la désambiguisation dun texte soit pour un choix dunités de langage le plus pertinent possible par rapport au contenu du discours.
Dans ce travail, on considère lincidence différente de deux classes de polyformes obtenues en opérant une distinction entre groupes nominaux ou verbes idiomatiques et séquences figées à caractère grammatical (locutions adverbiales, adjectivales, prépositives et conjonctives). Les éléments de la première classe, en général, mettent en évidence les thématiques plus spécifiquement liées à chaque corpus particulier, donc strictement dépendantes du contexte (normalement les expressions verbales apparaissent moins fréquentes et donc difficiles à évaluer du point de vue statistique). Les éléments de la seconde classe semblent relativement moins liés au contexte général et répandus de manière plus diffuse dans les différents types de discours, que les groupes nominaux et les locutions verbales.
On traite ici le problème de la saisie, parmi ces classes, des polyformes les plus fréquentes, ce qui implique, au moment de leur lexicalisation, une réduction significative de limportance des formes simples constituantes, dans les index de fréquence des corpus analysés.
Une des finalités de notre étude est la mise au point dune liste de polyformes qui soit la moins étendue possible (seulement quelques milliers), mais ayant un impact important en termes doccurrences sur le lexique standard. On pourra la construire surtout pour les locutions, puisque les groupes nominaux sont théoriquement infinis (si on pouvait collecter tous les domaines de la connaissance). Pour ces derniers on se limite à considérer ceux qui font partie dune connaissance non spécialisée, cest-à-dire de lexpérience courante dans le langage de tous les jours (presse, roman, télévision, dialogue).
A ce niveau, donc, nous voudrions aboutir à la construction dun dictionnaire de base de polyformes dont chaque composante soit, de fait, reconnue au niveau grammatical, ce qui permettrait de résoudre automatiquement un nombre non négligeable dhomographies pour la lemmatisation dun texte. Ce dictionnaire peut être considéré comme une sorte de lexique fondamental parce quil contiendra seulement des polyformes saisies en fréquence avec les expansions (par exemple : P_N, P_N_ADJ), insertions (P_N, P_ADJ_N, P_DET_N) ou retournements (P_N_ADJ, P_ADJ_N) plus communes, mais pas forcément avec toutes leurs variations admissibles du point de vue linguistique.
Pour atteindre ce résultat, il est essentiel détablir un lexique de fréquence dusage de polyformes ayant un certain poids en occurrences, ce qui permet de tester le taux de recouvrement du dictionnaire dans le texte. Lindice dusage (Muller 1977) nous permettra dévaluer le nombre doccurrences en fonction de la dispersion dans les différentes parties du corpus que nous prendrons en compte en tant quéchantillon de langage courant.
2. Problèmes, définitions et hypothèses
Tout cela pose un certain nombre de problèmes.
A) Dans une liste de polyformes on trouvera des entrées sous forme de lemmes (ex. : locutions verbales) et dautres en formes graphiques (adverbe, certains groupes nominaux), où leur signification peut même varier en passant du pluriel au singulier.
B) On sait bien, par exemple, que du côté sémantique on ne pourra jamais dire, même dans les cas les plus favorables, si une expression figée a toujours une et une seule signification. Dans notre cadre, on se limite à dire quune séquence est sémantiquement bloquée si, au sens de la statistique, son signifié le plus immédiat est largement majoritaire (par exemple, au-delà de 95% des cas). Au contraire, si cette condition ne se vérifie pas, on dira que lexpression figée reste ambiguë : on peut choisir de ne pas la lexicaliser et renvoyer à ses concordances pour la catégoriser. Pour quune expression puisse être lexicalisée il faut donc quelle soit non-ambiguë. Pourtant, nous voudrions chercher surtout les structures grammaticales avec une signification cristallisée. Celles-ci se révèlent cruciales au cours des étapes de la levée des ambiguïtés des séquences qui présentent plusieurs mots ambigus adjacents.
C) Dans la suite on montrera comment une intégration entre ressources linguistiques et approche statistique peut aider à dépasser au moins quelques-unes parmi ces difficultés. En fait, aucune liste rédigée par des linguistes ne peut être exhaustive. Dailleurs, on ne peut envisager la réalisation dun tel dictionnaire à laide dun corpus aussi étendu soit-il, comme le montre Silberztein avec deux corpus de "Le Monde" (1995). Au contraire, laccumulation dinventaires de segments répétés provenants de divers corpus peut au fur et à mesure améliorer la capacité de saisie dun dictionnaire automatique, aussi sous le point de vue des formes graphiques quasi-homographes dans lesquelles peuvent se présenter les séquences, parfois différentes de leur forme canonique listée dans le dictionnaire (pie/pié, fino a ora/fino ad ora/fin ora), y compris les variations orthographiques usuelles (perchè/perché).
D) Pour ce qui concerne la reconnaissance de certaines structures il faut prévoir une stratégie daction, qui puisse saisir, par exemple, les différences entre <in ordine> (adv.) <in ordine a> (prép.), qui ont une signification complètement différente. En général, il faut les détecter de la plus longue à la plus courte (Bolasco 1997b), afin déviter la redondance, et donc apprécier la fréquence nette des deux structures. Dailleurs, comme dans lexemple suivant, il faut lexicaliser les segments dans un ordre correct : a) <più presto possibile> (81 occ.), b) <al più presto> (102), c) <più presto> (196), d) <al più> (161), cest-à-dire toujours du segment le plus long au plus court, mais en donnant la priorité, en cas de parité, à la présence de deux formes principales (pleines). Et, après cette démarche, il demeure une question : combien des 59 (=161-102) occurrences du syntagme <al più> sont vraiment un adverbe et non plutôt une partie dune combinaison libre ?
A lheure actuelle, dune part les logiciels de type statistique (voir LEXICO, by Salem) capturent tous les segments répétés donc identiques (en formes graphiques) et redondants, dautre part les logiciels de type linguistique (voir INTEX, by Silberztein) détectent toutes les expressions définies dans un dictionnaire (lemmes et/ou formes graphiques) ou seulement celles décrites par une grammaire locale, sans aucune limitation de fréquence minimum ou de longueur, en comprenant donc aussi des quasi-segments.
Pour faire face à ces problèmes, du point de vue linguistique, notre étude sinscrit dans le cadre des travaux de léquipe dirigée par M. Gross sur les phrases figées en français au L.A.D.L. à Paris 7. Etudes qui ont été reprises par Annibale Elia et dautres à luniversité de Salerne pour litalien. Parmi les classes possibles de syntagmes (ou combinaisons de mots) distinguées pour différents degrés de figement (niveau de variabilité de cooccurrences), suivant Elia (1996), nous considérons les "combinaisons à distribution fixe" ou totalement figées, pour lesquelles on ne peut modifier aucun élément sans que le sens change et donc qui ont un fort degré de cristallisation sémantique. Seulement sous des telles conditions, ces expressions peuvent être considérées comme des unités lexicales, et donc - pour une analyse de contenu - des lexies. Pour les verbes et les groupes nominaux cela se révèle plus facile : <rendersi conto>, <colpo di telefono>. Pour les adverbes composés et les autres locutions grammaticales cela est moins évident. Par exemple, dans le cas de : <chiaro e tondo>, <da un momento allaltro> il ny a pas dambiguïté, mais pour : <da parte>, <in grande>, <una volta>, lambiguïté existe et peut être levée seulement à partir de lanalyse du contexte local plus large.
3. Les ressources linguistiques
Du point de vue linguistique, notre collecte de données, en tant que listes ("théoriques") de polyformes, exploite plusieurs sources : tout dabord les résultats des études sur les adverbes composés (Elia 1996) et les autres groupes de locutions ou sur les groupes nominaux avec la propriété du calcul "non compositionnel" (Silberztein 1993 ; Elia 1995). Parmi ces derniers, on a éliminé ceux qui dérivent dune forte spécialisation terminologique. Ce "dictionnaire" a été étendu en utilisant comme références pour le langage standard, soit celles sur litalien parlé (LIP, De Mauro 1993), soit des études sur les grammaires comparées (Geysen 1990), soit des données Eulogos (Mastidoro 1995). Le croisement de ces sources nous a permis, pour linstant, de disposer dune liste unifiée avec 8.414 entrées, pour lensemble des classes. Elle contient 4.024 adverbes et/ou adjectifs, 421 prépositions, conjonctions et interjections, 2.962 noms et 1.007 verbes idiomatiques.
4. La base de données statistiques
Dans toute approche statistique, les choix déchantillonnage sont cruciaux. Dans ce cas nous voulions relever le poids statistique des polyformes, à partir dun ensemble de textes suffisamment étendu, résultant de différentes typologies de langage et composé de genres très divers comme peuvent lêtre lécrit vs le parlé, le discours formel et institutionnel vs le dialogue informel, les articles de la presse vs la littérature (roman ou vulgarisation scientifique), tels quon puisse considerer avoir reconstruit un échantillon, pas trop insatisfaisant, du langage courant. On a exploité une vingtaine de sources différentes, qui peuvent être ramenées à 3 typologies de langage : écrit (presse, littérature, documents publics), oral (dialogues, entretiens, discours tant directs <un à tous> qu'indirects <via mass media>) et mixte cest-à-dire écrit/oralisé ou oral/transcrit (répliques aux débats parlementaires, histoires de vie, réponses aux questions ouvertes, compositions scolaires). Tout ces textes, dans la plupart des cas, sont relatifs à la période des années 80-90.
Le corpus (par la suite POLIF), formé de 4,142 millions doccurrences au total (en volume cest léquivalent dune encyclopédie dune douzaine de tomes de 1000 pages chacun), produit un vocabulaire de 124.305 chaînes de caractères différents, dimensions que rarement on a loccasion dexploiter simultanément. On peut considérer cet ensemble comme un échantillon de langue de taille moyenne (dans ce cas : 28MBytes). Dans notre perspective, il faut se méfier des corpus énormes mais homogènes : au contraire, on estime que la variété dun corpus est fondamentale plus que ses dimensions. Les syntagmes de mots, encore plus que les mots, sont sensibles au contexte et aux situations dénonciation.
5. Intégration statistique-linguistique
En fonction dune analyse de contenu, il est évident que toutes les entrées dun dictionnaire de polyformes ne peuvent pas forcément justifier une lexicalisation, au moment du dépouillement dun corpus. On peut voir cette problématique à partir dun exemple proposé par Elia (1995 : 139). Le critère qui inspire le choix de la lexicalisation met en jeu la fréquence. Normalement, on justifie la formation dune nouvelle entrée dans le vocabulaire dun corpus à analyser, si la lexicalisation apporte une signification sans devoir perdre trop dinformation autour de la forme "pivot". Cela implique dune part la non compositionalité de la lexie complexe par rapport aux formes simples constituantes, mais de lautre la sauvegarde des occurrences désambiguïsées de ces dernières (qui ne seront pas lexicalisées), lorsquelles dépassent le seuil de fréquence choisi pour lanalyse de contenu.
5.1 Quelques évidences empiriques
Deux circonstances, parfois concomitantes, ont orienté notre étude du côté statistique.
1) On constate une importance particulière, en nombre doccurrences, de certains mots du langage commun dans les lexiques de fréquence de la langue (LIF, VELI, LIP pour litalien ; TLF pour le français). Dans POLIF cest le cas de : cosa, parte, prima, quanto, tempo, modo, etc. (tab. 1). On les retrouve aux premiers rangs, sans justification apparente en termes de contenu. Mais, en observant la distribution des formes constituantes des expressions figées, on saperçoit quelles dépassent en effectifs la moitié des 500 premières formes simples de POLIF. Cette concentration décroît avec le rang et il existe une corrélation forte entre nombre doccurrences et quantité dexpressions figées.
Tab. 1 - Exemple de mots simples (grammaticaux et pleins) de POLIF, générateurs de polyformes du dictionnaire de base, avec % des occurrences employées dans ces polyformes
FG polyformes occurrences
(gramm) (nombre de) de la FG
di 226 151990
che 33 93852
a 115 58388
in 233 55553
per 54 49884
un 28 48057
da 32 23235
più 38 19915
al 40 17726
nel 32 14560
......
FG polyformes occ. % occ FG
(mot plein) en polyf
cosa 16 5523 62,5
parte 16 5397 57,8
prima 16 5114 50,0
quanto 16 4580 87,4
tempo 19 3766 70,8
modo 17 3559 58,0
vita 11 3296 34,0
meno 17 2900 79,1
volta 18 2670 79,9
punto 12 2440 68,2
momento 12 2301 60,7
2) Parfois on découvre un grand déséquilibre dans les fréquences des flexions dun même lemme. On considère que deux formes fléchies sont isofréquentes si leur différence en nombre doccurrences ne dépasse pas plus dune fois lordre de grandeur de la plus petite (Bolasco 1993). Au contraire cette différence est souvent de plusieurs ordres de grandeur, entre 2 et 10, parfois au-delà de 50 fois. Un exemple : le mot modo (au singulier = 3559 occ.) par rapport à modi (son pluriel = 293 occ.) produit une différence disofréquence (DIF) de 12,15.
Il est bien connu que les mots plus utilisés sont aussi les plus ambigus, du fait de leurs emplois multiples qui recouvrent de vastes signifiés. En général on peut faire lhypothèse que la fréquence des formes fléchies, par un effet purement aléatoire, tend à ne pas se différencier significativement. Étant donné un certain niveau de fréquence du mot (milliers, centaines, dizaines, unités), il sagit donc danalyser le pourquoi de cette différence en occurrences, quand elle se présente. A parité de nombre de fonctions grammaticales on note, par exemple, quil y a un comportement différent parmi les formes fléchies des noms abstraits par rapport à celui des noms concrets : ces derniers sont plus souvent dans la situation disofréquence.
Mais si les fonctions grammaticales sont différentes en passant dune flexion à lautre du même lemme (molto : ADJ/PRO/ADV, molta : ADJ/PRO), il est alors difficile que le hasard seul conduise au même niveau doccurrence. Encore plus si une forme fait partie dune ou plusieurs locutions. On peut facilement trouver une confirmation de ce quon vient de dire, dans les cas où une seule locution est suffisante pour créer la condition de non-isofréquence. Par exemple : accordo a 991 occurrences (accordi : 251) et DIF vaut 2,9. En soustrayant les 448 occurrences de la locution <daccordo>, on revient autour de lisofréquence (DIF=1,1). Un cas limite est celui de ladverbe <tutto sommato> (110 occ.) : il absorbe le 96% des 114 occurrences de la forme simple <sommato>. On trouve que lautre flexion du participe passé <sommati> compte seulement 4 occurrences (après la levée des ambiguïtés, DIF=1).
6. Lindex de fréquence des polyformes
Au moment de la rédaction de ce travail, pour des raisons techniques nous navons pu calculer les séquences que sur 9998 formes graphiques au seuil de 30 occurrences, avec un taux de recouvrement du texte de 90%. On obtient ainsi 16.430 séquences en tant que segments répétés (et redondants) de longueur inférieur à 7 mots, présents au moins 30 fois, qui à niveau dusage, pour le lexique fondamental, peuvent se réduire à 15.
Afin de considérer lusage des syntagmes saisis dans POLIF, on calcule leur dispersion dans les diverses sources. Dans lindex dusage de séquences ainsi obtenu, on observe aux premiers rangs - à part les combinaisons libres vides (<e di>, <e non>, ...) - presque uniquement des locutions (les groupes nominaux et les verbes idiomatiques ne surviennent quau-delà du 100e rang).
En croisant linventaire des segments de POLIF avec les 8.414 expressions figées collectées selon les critères linguistiques déjà énoncés, on trouve 1.125 structures communes, dont 343 adverbes et 105 prépositions. Apparemment le bilan semblerait pauvre, mais il faut rappeler quil provient dune forte sélection à priori, cohérente avec le choix détudier le langage plus courant, donc "fréquenté" et à la portée de tout le monde. Dailleurs, dans ce comptage, certains quasi-segments (cest-à-dire séquences qui se distinguent de leur structure de base dans certaines insertions) qui pourraient avoir une fréquence inférieure à 30, ne sont pas compris : donc ce croisement sous-estime encore sensiblement le phénomène. En se limitant aux locutions grammaticales, le fait que les 89,7% de leur dictionnaire ne sont pas reconnus, signifie que, pour linstant, cet ensemble ne semblerait pas très usuel. On peut aussi penser quil y a une différence significative entre une conception "abstraite" du lexique potentiel dessiné par les linguistes et un lexique dusage construit sur la base dun échantillon de langue courante.
Au contraire dans linventaire des segments on retrouve quelques centaines de lexies qui nétaient pas présentes dans notre dictionnaire actuel. Ce résultat confirme quil est toujours possible dintégrer, dans un dictionnaire, des structures très communes quon nattendait pas.
6.1 Détails sur les expressions figées et les classes dadverbes
Ces 1125 structures sont générées à partir de 795 mots simples pleins qui représentent 0,6% du vocabulaire de POLIF mais recouvrent 22% des occurrences du corpus. En général, 24% des occurrences de ces 795 mots pleins font partie des expressions figées reconnues par notre dictionnaire. En considérant que la moitié des occurrences des 795 mots simples de POLIF constituant des segments répétés sont ambigus, on constate quune grande partie de ceux-ci pourront être automatiquement désambiguisés. Les occurrences des formes ambiguës qui font partie des structures reconnues par le dictionnaire sont au nombre de 98.873 et équivalent à 26% du total de leur occurrences. Cela veut dire que la reconnaissance de ces polyformes permet denlever automatiquement un quart des ambiguïtés de ces occurrences
Pour certains mots très fréquents, le pourcentage de formes comprises dans des expressions figées est toutefois bien supérieur au 24% déjà cité. Les mots qui dépassent beaucoup cette moyenne, à part les noms propres ou géographiques, sont les mots constituants des expressions adverbiales, prépositives et conjonctives parmi les plus fréquents dans lindex des mots simples (dernière colonne en tab. 1). Au contraire les groupes nominaux ("non compositionnels") sont bien plus faibles en fréquence par rapport aux locutions grammaticales et ils le sont encore plus en usage, à cause de leur dispersion mineure (tab. 2).
Si on utilise, pour filtrer les séquences, un indice statistique plus sensible aux mots pleins constituant les expressions (Morrone 1993, 1995), on trouve aux premiers rangs, parmi les premières 200 expressions figées, 15% de locutions grammaticales, 43% de groupes nominaux, 17% de noms propres et 6% de verbes. Le reste est composé de séquences non structurées.
Dans la tab. 2, on met en évidence quelques aspects de la distribution de fréquences des structures de polyformes présents dans le corpus. Ainsi sont également illustrées des classes du dictionnaire des adverbes composés : nous limitons ici lanalyse aux classes les plus importantes en effectifs : <PC>, <PDETC>, <CC>, <PAC>. Pour le détail des classes, voir Elia (1996).
En général lanalyse confirme que l'indice de dispersion [Muller Ch., 1977] permet de distinguer efficacement les groupes nominaux des locutions grammaticales [Morrone, 1995]. En particulier, les adverbes apparaissent assez dispersés dans le corpus, et le fait quils ont des valeurs très semblables, entre 0,67 et 0,69, fait avancer lhypothèse quil existe une forte dépendance du type de langage. Si on analyse la distribution des occurrences normalisées de ces quatre classes selon la typologie des parties du corpus POLIF, on note que ces polyformes sont généralement plus fréquentes dans le parlé quà lécrit.
Tab. 2 : Classes de polyformes présentes dans le corpus POLIF et reconnues par le dictionnaire.*
Classe |
Exemple |
n° des structures |
% sur total de la classe |
Indice IS moyen |
Dispersion moyenne |
Fréquence d'usage moyenne |
Fréquence absolue moyenne |
Occurrences normalisées (x100.000) |
Noms |
punto di vista |
258 |
|
0,68 |
0,48 |
38,08 |
75,83 |
472,2 |
Verbs |
tener conto |
112 |
|
0,50 |
0,63 |
113,10 |
175,52 |
474,5 |
Prépositions |
fino a |
99 |
|
0,14 |
0,69 |
133,28 |
179,53 |
429,0 |
Adverbes (en total) |
343 |
|
0,21 |
0,68 |
89,39 |
122,77 |
1016,5 |
|
PC * |
in particolare |
172 |
19,7 |
0,19 |
0,68 |
93,41 |
130,38 |
541,3 |
PDETC * |
in qualche modo |
85 |
13,7 |
0,19 |
0,69 |
71,42 |
96,68 |
198,3 |
CC * |
non solo |
54 |
15,6 |
0,32 |
0,67 |
122,80 |
162,78 |
212,2 |
PAC * |
in primo luogo |
16 |
5,1 |
0,24 |
0,68 |
58,05 |
80,94 |
31,2 |
PCONG * |
più o meno |
6 |
4,5 |
0,10 |
0,62 |
79,09 |
108,50 |
15,7 |
CPC * |
prima di tutto |
4 |
3,9 |
0,12 |
0,66 |
60,11 |
90,75 |
8,76 |
PCPC * |
a poco a poco |
3 |
2,4 |
0,10 |
0,62 |
32,32 |
51,67 |
3,8 |
PCDC * |
a prezzo di costo |
2 |
0,8 |
0,10 |
0,77 |
68,63 |
89,00 |
4,3 |
PCA * |
in caso contrario |
1 |
0,3 |
0,19 |
0,42 |
14,98 |
36,00 |
0,9 |
* C=nom, adj ou adv. ; P=prép. ; DET=déterm. ; A=adj. ; D=de ; CONG=conj. ; pour le détail sur ces classes voir Elia (1996).
La fréquence moyenne des adverbes appartenant à la classe <PC> est de 540 occurrences tous les 100.000 mots dans lécrit, et de 683 dans le parlé ; au contraire, pour la classe <CC> la fréquence moyenne dans le langage écrit est de 180, contre 260 dans le parlé.
7. Le lexique fondamental de polyformes selon lusage
Une polyforme, en tant que séquence ou expression figée, appartiendra au lexique fondamental si elle possède au moins une des propriétés suivantes : a) être une expression figée non compositionnelle ou, de toute façon, une phrase toute faite ou idiomatique ; b) être une séquence avec une fréquence dusage importante (<cè>, <si tratta di>, etc) ; c) être une expression avec une dispersion élevée (on fait lhypothèse que seulement les entrées avec une dispersion dau moins 50% feront partie du lexique fondamental) ; d) être une séquence avec un fort degré dabsorption sur la forme simple pivot. A ce stade de létude, le lexique fondamental des polyformes (tab. 4), pour ce qui concerne les séquences au-dessus dune dispersion 0,5, est composé à 75% de locutions grammaticales et à 11% de groupes nominaux, dont seulement une petite partie de ces derniers a une dispersion > 0,7. On note que - au dessous dune dispersion 0,6 - les groupes nominaux perdent leur généralité et se rattachent à un type de discours : presse, politique, dialogue. Les polyformes restantes sont des verbes (avec une dispersion qui est très rarement supérieure à 0,5) ou des séquences non structurées à abandonner.
Au moment où nous écrivons, nous ne disposons pas encore des résultats de lanalyse des spécificités sur les différences entre les trois typologies de langage. Par contre, ce lexique fondamental, à travers ses structures les plus fréquentes, permet déjà de sélectionner la quantité et le type de grammaires locales (Silberztein 1993b) à mettre au point pour maximiser les levées automatiques dambiguïtés.
Tab. 3 - Premières locutions du lexique fondamental des polyformes
LOCUTION CAT. GR. CLAS USAGE DISP. OCC.
fino a PREP 1402,2 0,78 1801
di più ADV PC 1029,4 0,90 1137
non solo ADV CC 992,1 0,87 1133
in modo PREP 963,2 0,84 1152
prima di PREP 894,3 0,85 1049
si tratta di VERB 875,3 0,75 1167
una volta ADV * CC 873,9 0,88 992
da parte di PREP 802,4 0,77 1046
per esempio ADV PC 703,2 0,74 946
lo stesso ADV * CC 686,0 0,89 769
in particolare ADV PC 613,5 0,79 772
rispetto a PREP 605,0 0,72 839
per quanto riguarda REP 603,1 0,67 887
ad esempio ADV PC 590,4 0,75 787
a casa ADV PC 579,3 0,58 990
per cento ADV PC 506,7 0,67 754
di fronte a PREP 503,0 0,78 646
in grado di PREP 502,9 0,79 630
punto di vista NOM 473,1 0,75 625
nei confronti di PREP 443,1 0,74 600
quanto a PREP 379,2 0,68 556
all' interno di PREP 369,9 0,70 531
di nuovo ADV PC 367,5 0,79 460
in realtà ADV PC 364,3 0,84 432
davanti a PREP 364,0 0,73 500
grazie a PREP 363,6 0,76 480
a livello ADV PC 356,4 0,68 523
un anno ADV * CC 350,6 0,82 426
alla fine ADV PDETC 347,2 0,83 419
del resto ADV PDETC 344,3 0,76 449
un po' di PREP 337,4 0,69 489
pari a PREP 334,8 0,54 620
più o meno ADV PCONG 332,2 0,79 418
di fatto ADV PC 330,0 0,83 395
del tutto ADV PDETC 322,6 0,85 376
d' accordo ADV PC 319,3 0,71 448
un momento ADV * CC 302,3 0,75 400
in fondo ADV PC 298,0 0,73 404
* cette polyforme reste ambiguë
Références
Bolasco, S. (1997a). Meta-data and Strategies of Textual Data Analysis : Problems and Instruments, V International Conference of IFCS (Kobe - mars 1996), proceedings in Data Science, Classification and Related Methods, Tokio : Springer-Verlag.
Bolasco, S. (1997b). Some paradigms for a strategy of multidimensional analysis on textual data, in Giornate sulla "Classificazione e analisi dei dati", Gruppo italiano IFCS, 3-4 luglio Pescara.
DAgostino, E. (1992). Analisi del discorso. Metodi descrittivi dellitaliano duso.. Napoli : Loffredo ed.
De Mauro, T., Mancini, F., Vedovelli, M., Voghera, M. (1993). Lessico di frequenza dell'italiano parlato, Milano : EtasLibri.
Elia, A. (1995). Per una disambiguazione semi-automatica di sintagmi composti : i dizionari elettronici lessico-grammaticali, pubblicato in Cipriani R., Bolasco S. (eds.), Ricerca qualitativa e computer., Milano : F. Angeli.
Elia, A. (1996). Per filo e per segno : la struttura degli avverbi composti in E. DAgostino (ed.) Sintassi e semantica, ESI, Napoli, pp. 167-263
Fiala, P., Lafon, P., Piguet, M.F. (1997). La locution : entre lexique, syntaxe et pragmatique Pubbl. Inalf, collection "St Cloud", Paris : Klincksieck.
Geysen R., (1990). Dictionnaire des formes analogues en 7 langues, Paris-Louvain la Neuve : Duculot.
Mastidoro, N. (1995). Eulogos : sistema lessicale integrato di analisi linguistica, in Bolasco, S., Lebart, L., Salem, A. (eds.), JADT 1995 - Analisi statistica dei dati testuali, Roma : CISU, volume 1, pp. 211-218.
Morrone, A. (1993). Alcuni criteri di valutazione della significatività dei segmenti ripetuti, Comunicazione al convegno internazionale "Jadt 1993. Secondes Journées internationales d'Analyse statistique de Données Textuelles", Montpellier 21 22 ottobre 1993, Paris, TELECOM, 1993, pp. 299-309.
Morrone A., (1995). Una strategia di trattamento del testo per lindividuazione di variabili testuali rilevanti, in in Bolasco, S., Lebart, L., Salem, A. (eds.), JADT 1995 - Analisi statistica dei dati testuali, Roma : CISU, volume 1, pp. 135-142.
Muller, Ch. (1977). Principes et méthodes de statistique lexicale. Paris : Hachette. (re-imprimé par Champion en 1992).
Salem, A. (1987). Pratique de segments répétés. Publ. INalF, coll. St. Cloud, Paris : Klincksieck.
Silberztein, M. (1993). Les groupes nominaux productifs et les noms composés lexicalisés. Linguisticae Investigationes XVII, 2 : 405-425
Silberztein, M. (1993b). Dictionnaires électroniques et analyse automatique de textes. Le système INTEX. Paris : Masson.
Silberztein, M. (1995). Dictionnaires électroniques et comptage des mots in Bolasco, S., Lebart, L., Salem, A. (eds.), JADT 1995 - Analisi statistica dei dati testuali Roma : CISU, volume 1, pp. 93-102.