MÈthode intuitive et outils díÈvaluation automatique pour la constitution díun dictionnaire du franÁais usuel

Sommaire des JADT 1998

MÉTHODE INTUITIVE ET OUTILS D’ÉVALUATION AUTOMATIQUE POUR LA CONSTITUTION D’UN DICTIONNAIRE DU FRANÇAIS USUEL

Mylène Garrigues

Institut Gaspard Monge

Université de Marne-La-Vallée

2 rue de la Butte Verte, Noisy le Grand, 93 166. France

mgarrig@univ-mlv.fr

Résumé

Statistical methods regularly failed to circumscribe the common vocabulary of a language by computing word frequencies. As a remedy, we have applied an intuitive method for selecting words in an electronic dictionary (DELAS). We have tested the results of such a selection procedure on a large corpus by means of the INTEX system. In this way, we address the problems raised by methods relying on counting procedures.

1. Des tentatives peu concluantes

La sélection des mots courants du français (et d’autres langues) intéresse plusieurs domaines : informatique, enseignement des langues, linguistique, psycholinguistique. Or cette sélection a toujours posé problème. Qu’il existe des mots plus courants que d’autres, tout locuteur en a une conviction intime. Cette conviction peut du reste être mise à l’épreuve par des séries d’évaluations différentielles proposées à des locuteurs. Ainsi il est vraisemblable que n’importe quel locuteur français jugera que les mots odeur, fusil, poutre et chanson sont respectivement plus courants que fragrance, arquebuse, solive ou cantate.

On sait par ailleurs que les méthodes statistiques reposant sur le décompte des mots dans des corpus de textes se sont avérées impuissantes à circonscrire ce vocabulaire dont on sent pourtant bien qu’il existe. L’expérience du Français Fondamental a par exemple mis en évidence le fait que "les mots concrets semblent se dérober à la statistique" (G. Gougenheim, 1967). Par ailleurs les listes proposées par différentes expériences présentent toutes des regroupements extrêmement hétérogènes : on en trouvera de nombreux exemples dans le Dictionnaire des fréquences (1971) réalisé à partir d’un corpus de deux siècles de littérature française (XIXe et XXe siècle) en vue de l’élaboration du Dictionnaire du Trésor de la langue française. Ainsi trouve-t-on à la fréquence 3 par exemple des mots comme adurent, amphictyonique, amyle, anspessade, balanite, balancine, etc., mais aussi des mots comme archiver, achetable, babillement, bagarreur, basculement, chambouler, etc. Il n’y a enfin pas deux listes superposables, ni en entrées ni en nombre de mots. "pour atteindre une couverture de 95%, il faut selon les auteurs, 2 000 mots... 3 000... 4 500 ou 5 000" (P. Bogaards, 1994).

2. Une méthode intuitive

Nous avons donc adopté une méthode radicalement différente consistant à évaluer empiriquement la plausibilité d’apparition de chaque mot dans l’ensemble de la langue. (Pour le détail de la méthodologie, M. Garrigues, 1992). Le choix de cette méthode a été guidé par la conviction qu’un jugement intuitif donnerait une sélection présentant des listes dont seraient exclues les aberrations des listes de fréquence (absence de mots usuels et/ou présence de mots jugés plus rares). Mais il faut ajouter que la mise en œuvre de cette méthode était liée pour nous à l’existence de deux types d’outils permettant d’étayer ces choix de mots : des dictionnaires électroniques formalisés pour la reconnaissance automatique et des outils logiciels mettant automatiquement en rapport dictionnaires et textes (système INTEX). Ainsi était donnée la possibilité de tester les listes extraites du dictionnaire de référence sur de très larges corpus de textes, d’en évaluer la couverture lexicale et par conséquent de valider la sélection.

Le résultat de la partition des 80 000 mots du DELAS (Dictionnaire électronique des mots simples) a donné, en allant des mots les plus usuels aux mots les plus rares :

Couche 1 : 24 000 mots

Couche 2 : 13 000 mots

Couche 3 : 43 000 mots

Très curieusement le chiffre de la couche 1 correspond à une évaluation donnée par L. Bloomfield en 1933 :

The myths about peasants, workingmen, or savages who use only a few hundred words have no foundation in fact ; in so far as one can count words (ignoring, for instance, the inflected forms of a language like ours), every adult speaker uses at least somewhere round 20,000 to 30,000 words ; if he is educated - that is, if he knows technical and learned words- he uses many more. (p. 277).

On trouvera en annexe 1 un échantillon du DELAS contenant les marques des couches C1, C2 et C3. Bien sûr des discussions pourront toujours se produire à propos de tel ou tel mot, mais celles-ci déboucheront difficilement sur un avis unanime et définitif car le taux de polémique sera sans commune mesure avec celui que produit les listes de fréquence. Ainsi que nous l’avons expérimenté lors de notre sélection, des hésitations se produisent nécessairement sur un certain nombre de mots, mais il s’agit toujours d’hésitations entre deux couches contiguës (C1/C2 ou C2/C3), jamais entre deux couches extrêmes.

Avant de présenter notre analyse du corpus par couche, nous exposons les principales caractéristiques de l’apparition des mots dans les textes. Ce sont en effet ces caractéristiques qui expliquent l’échec des méthodes dites "objectives" de sélection du vocabulaire par le critère statistique de fréquences.

3. Les caractéristiques de l’apparition des mots

Une expérimentation a été menée sur un large corpus de textes disponible sur CD-Rom à savoir le texte intégral de deux années du journal Le Monde (années 1992 et 1993 comprenant respectivement 21 804 745 et 23 198 877 occurrences). Les résultats de cette confrontation texte-dictionnaire à l’aide du système INTEX font apparaître de façon tangible les faits suivants :

- Il y a très peu de mots très fréquents et beaucoup de mots peu fréquents (distribution de Zipf)

Les mots très fréquents, toujours en tête des listes de fréquence, sont les mots grammaticaux auxquels on peut ajouter les verbes supports (être, avoir, faire, etc.). On voit par exemple ci-dessous que les seuls mots dont la fréquence soit à la fois la plus élevée et sensiblement identique dans Le Monde 1992 et Le Monde 1993 sont des mots grammaticaux.

-L’instabilité des mots pleins est un trait inhérent à la langue

Il est surprenant de constater que les sous-dictionnaires des formes fléchies de chacune des années 92 et 93 présentent un nombre si élevé d’entrées différentes. Sur les 157 000 entrées de formes fléchies des deux années, seules 60 000 sont communes aux deux.

Si l’on compare les sous-dictionnaires des formes lemmatisées (obtenues automatiquement par le système INTEX), l’instabilité est bien entendu moins grande, puisqu’un lemme regroupe l’ensemble des formes fléchies d’un mot (naître regoupera naissons, naîtraient, naquit, etc.) Cependant l’instabilité est encore importante puisque sur 44 500 entrées lemmatisées, 8 700 mots (soit 1/5) ne se trouvent que dans un seul texte (4 321 dans Le Monde 92, 4 400 dans Le Monde 93).

- Les hapax sont aussi nombreux qu’hétérogènes

Le total des chaînes de caractères non encore lemmatisées présente un nombre d’hapax surprenant :

82 096 (Le Monde 92)

79 564 (Le Monde 93)

De plus, seules 13 807 chaînes sont communes aux deux. La liste de ces hapax contient aussi bien des mots rares que des mots que l’on pourrait difficilement considérer comme tels. Ainsi trouve-t-on à la lettre a des mots comme abaque, abertzale, abondement, abonnant, abidjanaise mais aussi abaissaient, abattraient, abordions, aboutissons.

- L’effet de contexte

Chaque micro-contexte sécrète une accumulation non aléatoire de mots. Autrement dit, il existe des "zones d’accumulation" de mots liées au contexte. Ainsi "au bout de cent mots à partir d’une position quelconque, la probabilité d’avoir rencontré le mot ministre est de trois fois plus faible que celle que l’on a si on se place juste après un mot ministre". (J. Senellart, 1996). On voit donc que la fréquence des mots est intimement liée au contexte. Les méthodes reposant sur la sélection préalable de corpus en vue d’en exploiter les listes de fréquence, ne font en fait que déplacer la subjectivité en amont, sur le choix des textes, sans pour autant faire disparaître les caractéristiques que nous venons d’évoquer.

4. Les résultats d’une démarche inverse

Nous présentons à présent les résultats obtenus par la démarche inverse, à savoir : sélection subjective de 3 listes hiérarchiques de mots (extraites du DELAS) et confrontation de la liste de mots jugés les plus usuels (couche 1, 24 000 mots) au même corpus des deux années du Monde.

On comparera tout d’abord le chiffre de la couche 1 du DELAS à celui des sous-dictionnaires DELAS couche 1 des deux années du Monde (obtenus automatiquement par INTEX)

DELAS couche 1 : 24 000 mots

Mots DELAS couche 1 communs au deux années : 21 840

Mots DELAS couche 1 n’apparaissant que dans Le Monde 92 : 455

Mots DELAS couche 1 n’apparaissant que dans Le Monde 93 : 525

On notera la stabilité des entrées puisque 21 840 entrées sont communes aux deux années, soit 91% de la couche de référence et que seules 4% des entrées du DELAS couche 1 sont absentes de chacune des années. On notera également que si l’on additionne le total des entrées couche 1 des deux années on obtient 22 825 mots, chiffre très proche des 24 000 entrées de la couche de référence.

Précisons que ce résultat eût été impossible à obtenir par la simple intersection des ensembles de mots des deux années puisque 14 000 entrées sur les 35 850 communes, soit plus du tiers, n’appartiennent pas au DELAS couche 1. Quant aux 1200 mots couche 1 absents des deux années (24 000 - 22 825), ils correspondent soit à des mots dérivés par préfixation (anti-, dé-, etc.) ou suffixation (-age, -ant, -ation, etc.), soit à des mots rares dont la présence est dûe à des erreurs de saisie lors du marquage de nos couches (castine, cicadelle, névrotomie, valpolicella, etc.) Par ailleurs certains mots ayant plusieurs graphies, il est possible que le mot figure dans le corpus avec d’autres graphies que celle qui apparaît dans ces 1 200 mots. Exemples : caravanning, kasbah, kascher, magrébin, marihuana etc. Si l’on retire ces cas, il reste très peu de mots de la couche 1 non employés ; et comme le montrent les exemples suivants il serait difficile de soutenir qu’ils n’appartiennent pas au vocabulaire courant. Il s’agit de mots tels que : baiseur, blablater, boustifaille, brioché, brouillasse, câlinerie, chamailleur, chuchoterie, cochonceté, égouttoir, hommasse, molasson, surprotection, ventrée, etc.

Ces résultats montrent donc qu’une telle méthode permet de cerner la partie stable du vocabulaire. La liste obtenue offre également une homogénéité impossible à obtenir par des méthodes statistiques. C’est pourquoi nous procédons actuellement, par la même méthode à la partition des mots composés.

5. Les mots composés

On sait en effet qu’une unité de sens ne recouvre pas nécessairement un mot simple. Ainsi les mots bassin houiller, brebis galeuse, détective privé, extorsion de fonds, faux-semblants, fuseau horaire, guerre civile, insuffisance rénale, pierre angulaire, pierre d’achoppement, plaque d’immatriculation, sautes d’humeur, etc. doivent être considérés comme des unités de sens et non comme deux mots séparés. Les moteurs de recherche qui indexeraient ces mots isolément, par exemple fuseaux et horaires, produiraient une avalanche de documents parasites tels que "cours de maths", "catalogues de vêtements", "manuels de tissage", "documents d’architecture", "horaires de train", "changements horaires", etc.

Le LADL a recensé pour le moment près de 150 000 mots composés. Ces mots peuvent appartenir à différentes parties du discours (noms, adjectifs, ou adverbes composés) et présenter différentes structures syntaxiques (Nom-Nom, Nom-Adjectif, Nom-préposition-Nom, etc.) On trouvera en annexe 2 un échantillon de la liste des noms composés de structure NA, NN et NDN. Nous avons pour le moment établi une hiérarchie de 3 couches de plausibilité C1, C2, C3 à partir des noms composés de structure NA. Les chiffres obtenus sont :

Couche 1 : 12 403

Couche 2 : 10 411

Couche 3 : 36 764

On trouvera en annexe 3 un échantillon de cette partition.

Précisons que notre méthode est liée comme pour les mots simples à l’existence de dictionnaires de mots composés. Ajoutons que l’idée que l’on pourrait extraire ceux-ci de corpus de textes est très vite démentie par les faits. Nous présentons à titre d’exemple les résultats d’une analyse lexicale automatique de l’année 94 du journal Le Monde (soit, 1 million de mots) :

Nombre de noms simples lemmatisés : 16 080

Nombre d’adjectifs simples lemmatisés : 9 948

Nombre de noms composés lemmatisés : 6 677

Nombre de noms composés du type AN ou NA : 4259

Ces chiffres montrent déjà l’importance des mots composés dans les textes. L’analyse ne porte ici que sur une seule catégorie du discours : les noms composés. Si l’on comptabilisait les autres catégories grammaticales telles que adverbes composés, locutions prépositionnelles ou verbales, le nombre de mots composés serait bien plus élevé puisqu’il faudrait prendre en compte des unités de sens telles que : à l’emporte pièce, en avant-première, sous le coup de l’émotion, prendre son pied, etc. (Cf. M. Gross, J. Senellart, présent volume).

En procédant au même recensement automatique des noms simples après avoir supprimé les noms composés du corpus, on obtient les chiffres suivants :

15 677 noms simples lemmatisés

9 609 adjectifs simples lemmatisés

Il n’y a donc eu que 403 disparitions de noms simples (16 080-15 677) et 362 (9948 - 9609) disparitions d’adjectifs simples.

Ces chiffres montrent qu’un nombre extrêmement important de mots est susceptible de se trouver dans le même corpus comme unité de sens en mot simple et /ou comme partie d’unité de sens de mot composé. Il serait donc impossible d’extraire les seuls mots composés sans dictionnaires. Ils nous engagent également à poursuivre notre extraction du vocabulaire usuel du français selon la même méthode et à partir des mêmes outils.

Références

Bloomfield, L. (1933). Language. New-York : Henry Holt and Company

Bogaards, P. (1994). Le vocabulaire dans l’apprentissage des langues étrangères. Paris : Didier

Courtois, Bl. et Silberztein, M. (éds) (1990). Dictionnaires électroniques du français. Langue française N° 87, Paris : Larousse

Dictionnaire des Fréquences. (1971). Études statistiques sur le vocabulaire français. Vocabulaire littéraire des XIXème et XXème siècles. (4 vol.). CNRS. Centre de recherche pour un trésor de la langue française, Nancy : Didier

Garrigues, M. (1992). Dictionnaires hiérarchiques du français. In Dugas A., Molinier C. (éds), La production lexicale. Langue française N°96. Paris : Larousse. pp. 88-100.

Gougenheim, G., Rivenc, Michéa et Sauvageot (1967). L’élaboration du français fondamental. Paris : Didier

Senellart, J. (1996). Recherche rapide d’expressions régulières dans les textes indexés. Rapport technique. LADL - Université Paris 7

Silberztein, M. (1993). Dictionnaires électroniques et analyse automatique de textes : le système Intex. Paris : Masson.

Sommaire des JADT 1998