MÉTHODE INTUITIVE ET OUTILS DÉVALUATION AUTOMATIQUE POUR LA CONSTITUTION DUN DICTIONNAIRE DU FRANÇAIS USUEL
Mylène Garrigues
Institut Gaspard Monge
Université de Marne-La-Vallée
2 rue de la Butte Verte, Noisy le Grand, 93 166. France
mgarrig@univ-mlv.fr
Résumé
Statistical methods regularly failed to circumscribe the common vocabulary of a language by computing word frequencies. As a remedy, we have applied an intuitive method for selecting words in an electronic dictionary (DELAS). We have tested the results of such a selection procedure on a large corpus by means of the INTEX system. In this way, we address the problems raised by methods relying on counting procedures.
1. Des tentatives peu concluantes
La sélection des mots courants du français (et dautres langues) intéresse plusieurs domaines : informatique, enseignement des langues, linguistique, psycholinguistique. Or cette sélection a toujours posé problème. Quil existe des mots plus courants que dautres, tout locuteur en a une conviction intime. Cette conviction peut du reste être mise à lépreuve par des séries dévaluations différentielles proposées à des locuteurs. Ainsi il est vraisemblable que nimporte quel locuteur français jugera que les mots odeur, fusil, poutre et chanson sont respectivement plus courants que fragrance, arquebuse, solive ou cantate.
On sait par ailleurs que les méthodes statistiques reposant sur le décompte des mots dans des corpus de textes se sont avérées impuissantes à circonscrire ce vocabulaire dont on sent pourtant bien quil existe. Lexpérience du Français Fondamental a par exemple mis en évidence le fait que "les mots concrets semblent se dérober à la statistique" (G. Gougenheim, 1967). Par ailleurs les listes proposées par différentes expériences présentent toutes des regroupements extrêmement hétérogènes : on en trouvera de nombreux exemples dans le Dictionnaire des fréquences (1971) réalisé à partir dun corpus de deux siècles de littérature française (XIXe et XXe siècle) en vue de lélaboration du Dictionnaire du Trésor de la langue française. Ainsi trouve-t-on à la fréquence 3 par exemple des mots comme adurent, amphictyonique, amyle, anspessade, balanite, balancine, etc., mais aussi des mots comme archiver, achetable, babillement, bagarreur, basculement, chambouler, etc. Il ny a enfin pas deux listes superposables, ni en entrées ni en nombre de mots. "pour atteindre une couverture de 95%, il faut selon les auteurs, 2 000 mots... 3 000... 4 500 ou 5 000" (P. Bogaards, 1994).
2. Une méthode intuitive
Nous avons donc adopté une méthode radicalement différente consistant à évaluer empiriquement la plausibilité dapparition de chaque mot dans lensemble de la langue. (Pour le détail de la méthodologie, M. Garrigues, 1992). Le choix de cette méthode a été guidé par la conviction quun jugement intuitif donnerait une sélection présentant des listes dont seraient exclues les aberrations des listes de fréquence (absence de mots usuels et/ou présence de mots jugés plus rares). Mais il faut ajouter que la mise en uvre de cette méthode était liée pour nous à lexistence de deux types doutils permettant détayer ces choix de mots : des dictionnaires électroniques formalisés pour la reconnaissance automatique et des outils logiciels mettant automatiquement en rapport dictionnaires et textes (système INTEX). Ainsi était donnée la possibilité de tester les listes extraites du dictionnaire de référence sur de très larges corpus de textes, den évaluer la couverture lexicale et par conséquent de valider la sélection.
Le résultat de la partition des 80 000 mots du DELAS (Dictionnaire électronique des mots simples) a donné, en allant des mots les plus usuels aux mots les plus rares :
Couche 1 : 24 000 mots
Couche 2 : 13 000 mots
Couche 3 : 43 000 mots
Très curieusement le chiffre de la couche 1 correspond à une évaluation donnée par L. Bloomfield en 1933 :
The myths about peasants, workingmen, or savages who use only a few hundred words have no foundation in fact ; in so far as one can count words (ignoring, for instance, the inflected forms of a language like ours), every adult speaker uses at least somewhere round 20,000 to 30,000 words ; if he is educated - that is, if he knows technical and learned words- he uses many more. (p. 277).
On trouvera en annexe 1 un échantillon du DELAS contenant les marques des couches C1, C2 et C3. Bien sûr des discussions pourront toujours se produire à propos de tel ou tel mot, mais celles-ci déboucheront difficilement sur un avis unanime et définitif car le taux de polémique sera sans commune mesure avec celui que produit les listes de fréquence. Ainsi que nous lavons expérimenté lors de notre sélection, des hésitations se produisent nécessairement sur un certain nombre de mots, mais il sagit toujours dhésitations entre deux couches contiguës (C1/C2 ou C2/C3), jamais entre deux couches extrêmes.
Avant de présenter notre analyse du corpus par couche, nous exposons les principales caractéristiques de lapparition des mots dans les textes. Ce sont en effet ces caractéristiques qui expliquent léchec des méthodes dites "objectives" de sélection du vocabulaire par le critère statistique de fréquences.
3. Les caractéristiques de lapparition des mots
Une expérimentation a été menée sur un large corpus de textes disponible sur CD-Rom à savoir le texte intégral de deux années du journal Le Monde (années 1992 et 1993 comprenant respectivement 21 804 745 et 23 198 877 occurrences). Les résultats de cette confrontation texte-dictionnaire à laide du système INTEX font apparaître de façon tangible les faits suivants :
- Il y a très peu de mots très fréquents et beaucoup de mots peu fréquents (distribution de Zipf)
Les mots très fréquents, toujours en tête des listes de fréquence, sont les mots grammaticaux auxquels on peut ajouter les verbes supports (être, avoir, faire, etc.). On voit par exemple ci-dessous que les seuls mots dont la fréquence soit à la fois la plus élevée et sensiblement identique dans Le Monde 1992 et Le Monde 1993 sont des mots grammaticaux.
-Linstabilité des mots pleins est un trait inhérent à la langue
Il est surprenant de constater que les sous-dictionnaires des formes fléchies de chacune des années 92 et 93 présentent un nombre si élevé dentrées différentes. Sur les 157 000 entrées de formes fléchies des deux années, seules 60 000 sont communes aux deux.
Si lon compare les sous-dictionnaires des formes lemmatisées (obtenues automatiquement par le système INTEX), linstabilité est bien entendu moins grande, puisquun lemme regroupe lensemble des formes fléchies dun mot (naître regoupera naissons, naîtraient, naquit, etc.) Cependant linstabilité est encore importante puisque sur 44 500 entrées lemmatisées, 8 700 mots (soit 1/5) ne se trouvent que dans un seul texte (4 321 dans Le Monde 92, 4 400 dans Le Monde 93).
- Les hapax sont aussi nombreux quhétérogènes
Le total des chaînes de caractères non encore lemmatisées présente un nombre dhapax surprenant :
82 096 (Le Monde 92)
79 564 (Le Monde 93)
De plus, seules 13 807 chaînes sont communes aux deux. La liste de ces hapax contient aussi bien des mots rares que des mots que lon pourrait difficilement considérer comme tels. Ainsi trouve-t-on à la lettre a des mots comme abaque, abertzale, abondement, abonnant, abidjanaise mais aussi abaissaient, abattraient, abordions, aboutissons.
- Leffet de contexte
Chaque micro-contexte sécrète une accumulation non aléatoire de mots. Autrement dit, il existe des "zones daccumulation" de mots liées au contexte. Ainsi "au bout de cent mots à partir dune position quelconque, la probabilité davoir rencontré le mot ministre est de trois fois plus faible que celle que lon a si on se place juste après un mot ministre". (J. Senellart, 1996). On voit donc que la fréquence des mots est intimement liée au contexte. Les méthodes reposant sur la sélection préalable de corpus en vue den exploiter les listes de fréquence, ne font en fait que déplacer la subjectivité en amont, sur le choix des textes, sans pour autant faire disparaître les caractéristiques que nous venons dévoquer.
4. Les résultats dune démarche inverse
Nous présentons à présent les résultats obtenus par la démarche inverse, à savoir : sélection subjective de 3 listes hiérarchiques de mots (extraites du DELAS) et confrontation de la liste de mots jugés les plus usuels (couche 1, 24 000 mots) au même corpus des deux années du Monde.
On comparera tout dabord le chiffre de la couche 1 du DELAS à celui des sous-dictionnaires DELAS couche 1 des deux années du Monde (obtenus automatiquement par INTEX)
DELAS couche 1 : 24 000 mots
Mots DELAS couche 1 communs au deux années : 21 840
Mots DELAS couche 1 napparaissant que dans Le Monde 92 : 455
Mots DELAS couche 1 napparaissant que dans Le Monde 93 : 525
On notera la stabilité des entrées puisque 21 840 entrées sont communes aux deux années, soit 91% de la couche de référence et que seules 4% des entrées du DELAS couche 1 sont absentes de chacune des années. On notera également que si lon additionne le total des entrées couche 1 des deux années on obtient 22 825 mots, chiffre très proche des 24 000 entrées de la couche de référence.
Précisons que ce résultat eût été impossible à obtenir par la simple intersection des ensembles de mots des deux années puisque 14 000 entrées sur les 35 850 communes, soit plus du tiers, nappartiennent pas au DELAS couche 1. Quant aux 1200 mots couche 1 absents des deux années (24 000 - 22 825), ils correspondent soit à des mots dérivés par préfixation (anti-, dé-, etc.) ou suffixation (-age, -ant, -ation, etc.), soit à des mots rares dont la présence est dûe à des erreurs de saisie lors du marquage de nos couches (castine, cicadelle, névrotomie, valpolicella, etc.) Par ailleurs certains mots ayant plusieurs graphies, il est possible que le mot figure dans le corpus avec dautres graphies que celle qui apparaît dans ces 1 200 mots. Exemples : caravanning, kasbah, kascher, magrébin, marihuana etc. Si lon retire ces cas, il reste très peu de mots de la couche 1 non employés ; et comme le montrent les exemples suivants il serait difficile de soutenir quils nappartiennent pas au vocabulaire courant. Il sagit de mots tels que : baiseur, blablater, boustifaille, brioché, brouillasse, câlinerie, chamailleur, chuchoterie, cochonceté, égouttoir, hommasse, molasson, surprotection, ventrée, etc.
Ces résultats montrent donc quune telle méthode permet de cerner la partie stable du vocabulaire. La liste obtenue offre également une homogénéité impossible à obtenir par des méthodes statistiques. Cest pourquoi nous procédons actuellement, par la même méthode à la partition des mots composés.
5. Les mots composés
On sait en effet quune unité de sens ne recouvre pas nécessairement un mot simple. Ainsi les mots bassin houiller, brebis galeuse, détective privé, extorsion de fonds, faux-semblants, fuseau horaire, guerre civile, insuffisance rénale, pierre angulaire, pierre dachoppement, plaque dimmatriculation, sautes dhumeur, etc. doivent être considérés comme des unités de sens et non comme deux mots séparés. Les moteurs de recherche qui indexeraient ces mots isolément, par exemple fuseaux et horaires, produiraient une avalanche de documents parasites tels que "cours de maths", "catalogues de vêtements", "manuels de tissage", "documents darchitecture", "horaires de train", "changements horaires", etc.
Le LADL a recensé pour le moment près de 150 000 mots composés. Ces mots peuvent appartenir à différentes parties du discours (noms, adjectifs, ou adverbes composés) et présenter différentes structures syntaxiques (Nom-Nom, Nom-Adjectif, Nom-préposition-Nom, etc.) On trouvera en annexe 2 un échantillon de la liste des noms composés de structure NA, NN et NDN. Nous avons pour le moment établi une hiérarchie de 3 couches de plausibilité C1, C2, C3 à partir des noms composés de structure NA. Les chiffres obtenus sont :
Couche 1 : 12 403
Couche 2 : 10 411
Couche 3 : 36 764
On trouvera en annexe 3 un échantillon de cette partition.
Précisons que notre méthode est liée comme pour les mots simples à lexistence de dictionnaires de mots composés. Ajoutons que lidée que lon pourrait extraire ceux-ci de corpus de textes est très vite démentie par les faits. Nous présentons à titre dexemple les résultats dune analyse lexicale automatique de lannée 94 du journal Le Monde (soit, 1 million de mots) :
Nombre de noms simples lemmatisés : 16 080
Nombre dadjectifs simples lemmatisés : 9 948
Nombre de noms composés lemmatisés : 6 677
Nombre de noms composés du type AN ou NA : 4259
Ces chiffres montrent déjà limportance des mots composés dans les textes. Lanalyse ne porte ici que sur une seule catégorie du discours : les noms composés. Si lon comptabilisait les autres catégories grammaticales telles que adverbes composés, locutions prépositionnelles ou verbales, le nombre de mots composés serait bien plus élevé puisquil faudrait prendre en compte des unités de sens telles que : à lemporte pièce, en avant-première, sous le coup de lémotion, prendre son pied, etc. (Cf. M. Gross, J. Senellart, présent volume).
En procédant au même recensement automatique des noms simples après avoir supprimé les noms composés du corpus, on obtient les chiffres suivants :
15 677 noms simples lemmatisés
9 609 adjectifs simples lemmatisés
Il ny a donc eu que 403 disparitions de noms simples (16 080-15 677) et 362 (9948 - 9609) disparitions dadjectifs simples.
Ces chiffres montrent quun nombre extrêmement important de mots est susceptible de se trouver dans le même corpus comme unité de sens en mot simple et /ou comme partie dunité de sens de mot composé. Il serait donc impossible dextraire les seuls mots composés sans dictionnaires. Ils nous engagent également à poursuivre notre extraction du vocabulaire usuel du français selon la même méthode et à partir des mêmes outils.
Références
Bloomfield, L. (1933). Language. New-York : Henry Holt and Company
Bogaards, P. (1994). Le vocabulaire dans lapprentissage des langues étrangères. Paris : Didier
Courtois, Bl. et Silberztein, M. (éds) (1990). Dictionnaires électroniques du français. Langue française N° 87, Paris : Larousse
Dictionnaire des Fréquences. (1971). Études statistiques sur le vocabulaire français. Vocabulaire littéraire des XIXème et XXème siècles. (4 vol.). CNRS. Centre de recherche pour un trésor de la langue française, Nancy : Didier
Garrigues, M. (1992). Dictionnaires hiérarchiques du français. In Dugas A., Molinier C. (éds), La production lexicale. Langue française N°96. Paris : Larousse. pp. 88-100.
Gougenheim, G., Rivenc, Michéa et Sauvageot (1967). Lélaboration du français fondamental. Paris : Didier
Senellart, J. (1996). Recherche rapide dexpressions régulières dans les textes indexés. Rapport technique. LADL - Université Paris 7
Silberztein, M. (1993). Dictionnaires électroniques et analyse automatique de textes : le système Intex. Paris : Masson.