Sylvie Mellet C.N.R.S., " Bases, Corpus et Langage " (UMR 6039, Nice)
Lemmatisation et encodage grammatical : un luxe inutile ?
Cest à partir dune base de données de textes latins que la question posée en titre de cet article sera examinée ; on verra cependant que les points abordés, les réponses fournies, les enjeux détectés ont une portée qui dépasse largement le cadre des études classiques et que la contingence de nos compétences spécifiques ne doit pas occulter limportance dun problème méthodologique très général. La première base de données textuelles latines ayant enrichi les textes bruts a été constituée par le L.A.S.L.A. (Laboratoire dAnalyse Statistique des Langues Anciennes) de lUniversité de Liège, à partir de 1961. Cette base de données rassemble aujourdhui une vingtaine dauteurs latins différents (pour la plupart dépoque classique ou du haut-empire), soit encore 160 textes et environ 1,7 million de mots. Lobjectif était, au départ, doffrir à lutilisateur les moyens de retrouver automatiquement toutes les occurrences dun même vocable, quelles que fussent ses variantes orthographiques et ses formes flexionnelles ; ce qui, pour une langue comme le latin dans laquelle non seulement les verbes se conjuguent, mais aussi les noms et les adjectifs se déclinent, impose demblée le choix de la lemmatisation, cest-à-dire létablissement dun lien entre chaque forme graphique (ou mot) du texte et lentrée correspondante dans un dictionnaire de référence (ou lemme). Ce regroupement des formes sous leur lemme implique une analyse morphologique préalable : ainsi pour savoir si la forme legis doit être rattachée au verbe lego ou au substantif lex, il convient davoir analysé la proposition dans laquelle apparaît cette forme et davoir déterminé si lon a affaire à un verbe à la deuxième personne du singulier (tu lis) ou à un substantif au génitif singulier (de la loi). Lidée sest alors imposée de conserver aussi ces analyses sous la forme dun code alpha-numérique qui suit chaque mot dans la linéarité du texte et de prévoir des outils de lecture et dexploitation automatique de ces codes. On le voit, lemmatisation et encodage grammatical sont deux opérations distinctes qui, pour être complémentaires, ne sont pas nécessairement associées et, surtout, pas toujours conservées sous un format récupérable dans les bases de données. Le L.A.S.L.A. a eu le mérite de comprendre les avantages des deux opérations dès le début des années 60. La méthode de traitement est semi-automatique : à partir dun dictionnaire des radicaux (ou bases) dune part et dune liste de toutes les finales envisageables en latin dautre part, le programme effectue une lecture régressive de chaque forme et en propose toutes les analyses morphologiques possibles. Par exemple, la forme naturae est ainsi lue et analysée : natura-e rien natur-ae génitif singulierdatif singulier du substantif natura nominatif pluriel vocatif pluriel natu-rae rien nat-urae participe futur du verbe nascor nat-urae participe futur du verbe no Cest alors le philologue qui intervient pour sélectionner manuellement lanalyse juste en contexte. Cette dernière étape est évidemment longue ; mais elle permet de disposer in fine dun texte lemmatisé, totalement désambiguïsé et enrichi détiquettes morphologiques fiables. Chaque base textuelle est donc composée de trois fichiers (cf. Mellet : 1996) : le fichier comprenant le texte étiqueté, lindex des lemmes où, sous chaque entrée, sont rassemblées toutes les formes afférentes accompagnées de leur référence exacte dans le texte (et cest là que senregistrent aussi les levées dhomonymie) et enfin lindex des propositions subordonnées. Une telle structuration permet deffectuer automatiquement et de manière très efficace (i.e. rapide, exhaustive et non bruitée) des recherches très variées portant soit sur une forme graphique, soit sur une chaîne de caractères (suffixes, préfixes par ex.), soit sur les occurrences dun lemme quelles que soient ses formes fléchies (sum, es, est, sunt, fuit, ero, eram, etc.), soit sur un type de subordination (toutes les relatives au subjonctif), soit sur une catégorie grammaticale (tous les noms de la 3ème déclinaison à lablatif singulier). Nous ninsisterons pas sur la richesse de telles possibilités, que nous avons présentées ailleurs ; on sait bien en effet que la lemmatisation offre une solution élégante et efficace à certains problèmes majeurs du traitement automatique des textes tels que la levée dambiguïté et le traitement préalable des homonymies ; on sait aussi que lencodage grammatical ouvre les corpus étiquetés à tous les types de recherches linguistiques là où les textes bruts nintéressaient guère que les lexicographes et lexicologues. En revanche, nous voudrions revenir ici sur un autre des atouts majeurs de la lemmatisation, trop souvent négligé et sous-estimé, à savoir le traitement des variantes orthographiques et morphologiques.
1. Variantes orthographiques et morphologiques Le latin est une langue à lécriture relativement transparente : elle est en effet quasiment phonogrammique, chaque lettre étant toujours et partout prononcée et transcrivant constamment un seul et même phonème. Cependant lorthographe est mal stabilisée et trahit souvent les évolutions phonétiques en cours ainsi que laccueil facilement accordé aux formes orales et dialectales. Une telle malléabilité induit dans les textes les variantes orthographiques que nous allons détailler ci-dessous : 1.1. Evolutions phonétiques et absence de norme stabilisée : On relève à ce titre : _ des haplologies facultatives : exspectare / expectare " attendre " ; exsilium / exilium " exil " ; ► des assimilations consonantiques transcrites ou non : inlicio / illicio " je séduis " ; adtuli / attuli " jai apporté " ; quidquid / quicquid " quoi que ce soit " ; ► des transcriptions facultatives de phonèmes faibles (le h notamment ou les nasales devant fricatives et sifflantes) : harena / arena " le sable " ; exhibeo / exibeo " je montre " ; consul / cosul " le consul " ; ► des traces de monophtongaisons en cours : saeta / seta " la soie " ; plaudite / plodite " applaudissez " ; poenicus / punicus " punique, carthaginois ". Comme on le devine à travers ces quelques exemples, de telles alternances graphiques ne sont pas rares : elles touchent de nombreuses séquences graphiques et des lexèmes très courants ; nous nen avons pas fait le décompte exhaustif, mais nous pensons que limpact de ces variantes nest pas négligeable, même dans des traitements statistiques de quelque ampleur.
1.2. Les élisions, épenthèses, aphérèses et contractions diverses : Deux phénomènes sont ici à distinguer : _ la transcription de formes orales (notamment dans les textes de théâtre) qui alternent avec la forme pleine normalement attendue à lécrit : certumst / certum est " cest certain " ; credin ? / credisne ? " tu crois ? " ; ► les problèmes liés à lédition moderne de textes qui, dans leur forme originelle, pratiquaient la scriptio continua (écriture continue ne séparant pas les mots par des blancs et ne connaissant aucun signe de ponctuation) : ces choix éditoriaux modernes créent des alternances, sans doute artificielles, du type : quo modo ? " de quelle manière ? " / quomodo ? " comment ? " ; et iam " et déjà " / etiam " aussi " ; animum aduertere " prêter attention, tourner son esprit vers " / animaduertere " remarquer ".
1.3. Les abréviations : Elles sont nombreuses dans les textes latins ; on peut citer, entre autres : _ les prénoms : M. pour Marcus, M. pour Manius, L. pour Lucius, etc. ; _ les chiffres romains, bien connus, mais aussi les noms de mesure et de monnaie ; ► les dates : a.d. VI Kal. Ian. = ante diem sextum Kalendas Ianuarias " le sixième jour avant les calendes de janvier " ; ► les formules rituelles : SPQR = Senatus Populusque Romanus (marque de létat romain) ; V. = Vale " porte-toi bien " (formule de salutation à la fin dune lettre).
1.4. Les variantes morphologiques : Les textes latins portent parfois la trace de lévolution diachronique de la langue et des incertitudes que celle-ci fait peser sur la morphologie flexionnelle. Cela est particulièrement vrai dans les textes préclassiques tels les comédies de Plaute ; mais la présence de variantes nest pas exclue non plus ultérieurement. Ainsi voit-on un même texte hésiter entre la forme classique de génitif singulier pater familiae (comme rosae) et sa forme archaïque pater familias (dont la pérennité ne sest pas démentie) ; ou entre deux formes concurrentes dablatif singulier pour les noms dont le thème se termine par un i : igni / igne " par le feu " ; ou encore entre deux formes de subjonctif présent du verbe être : sit / siet " quil soit " ou deux formes du subjonctif parfait du verbe faire : fecerit / faxit " quil ait fait ".
On le voit, les difficultés rencontrées ne sont pas vraiment spécifiques au latin : dune part les dialectologues et les historiens du français auront reconnu des phénomènes qui leur sont familiers ; dautre part, les francisants qui travaillent sur la langue moderne auraient sans doute intérêt à sinterroger davantage quils ne le font généralement sur lexistence de telles variations dans les textes quils étudient. Car, sauf à travailler uniquement sur des textes de facture extrêmement classique, on rencontre nécessairement des graphies oralisantes qui tentent de reproduire la parole dun personnage et le heurt de ses mots, que celui-ci se traduise par des élisions ou, au contraire, par des liaisons appuyées ; et plus on intègre dans son corpus des romans contemporains, plus le procédé devient systématique (cf. Annie Saumont ou Jean Echenoz, par exemple ; mais Jean Giono ne sen privait pas non plus). Et si daventure on quitte la littérature pour entrer dans le monde journalistique ou, mieux encore, pour télécharger des textes via linternet, surgissent alors une multitude dabréviations et de sigles qui sont autant de variantes de lexèmes ou de syntagmes complets, ainsi que des variantes orthographiques et morphologiques qui, pour nêtre pas reconnues par lAcadémie ni par lécole républicaine, nen affectent pas moins la qualité des corpus étudiés. Plutôt que de passer outre, il nous semble préférable de se donner des moyens efficaces pour prendre en compte cette réalité.
2. Lemmatisation et traitement de la variation La lemmatisation permet précisément de dégager les analyses de corpus des aléas de la variation tout en conservant la forme originelle et authentique des textes : elle satisfait donc à la fois aux exigences de la statistique linguistique (en particulier dans le cadre de la comparaison de textes) et à celles de la philologie. Il suffit de garder présent à lesprit le principe fondamental que tout traitement de lemmatisation doit respecter la graphie dorigine et permettre de la retrouver à tout moment ; il ne sagit donc pas de transformer le texte, de le lisser au profit dune norme dont on se demande dailleurs ce quelle pourrait être. Mais il faut, dans le même temps, pouvoir sen affranchir. La solution à cette double exigence réside dans la création dun index alphabétique lemmatisé. Chaque forme du texte est rapportée à son lemme (déterminé de préférence avec laide dun dictionnaire et dune grammaire de référence afin que les choix restent stables durant tout le traitement, quelle que soit sa durée et le nombre dopérateurs qui y participent) et ce sont ces lemmes qui sont classés par ordre alphabétique, constituant ainsi un index (ou dictionnaire du texte) ; sous chaque entrée de cet index sont rassemblées les différentes formes qui sy rapportent, avec leur graphie dorigine et leur référence précise dans le texte. Tel est le fichier fondamental de la base, le fichier charnière, le médiateur qui permet de circuler rapidement et en toute sécurité du dictionnaire de référence au texte, du lemme à la forme, du standard à ses variantes. Les quelques exemples suivants, empruntés à lindex de luvre de Caton, vont illustrer la description précédente en reprenant quelques cas de variation évoqués au paragraphe 1 : Premier exemple : le lemme adueho " amener " Ce lemme a trois occurrences dans luvre de Caton : aux paragraphes 22, 135 et 138 du Traité de lAgriculture. 3 ADVEHO aduexeris A. 22, 4 ,22 aruectum erit A. 135, 7, 29 aruehant A. 138, 1, 8 Ces trois formes se différencient dabord par leur flexion puisquil sagit de formes conjuguées ; et lon peut voir que la conjugaison provoque des modifications formelles non négligeables ; elles se différencient ensuite par une variation dans la forme du préfixe : la forme normale ad- pouvait laisser place, surtout en parler rural, à une forme dissimilée ar- ; comme on le voit, Caton admet les deux prononciations et les retranscrit fidèlement. Se révèle alors pleinement la vanité des subterfuges quont longtemps représenté, dans les bases non lemmatisées, les caractères jokers tels que létoile ou le dollar : le mot connaissant ici des variantes lourdes sur sa finale et une variante qui touche aussi sa deuxième lettre et qui éloigne considérablement ses diverses occurrences lune de lautre dans lordre alphabétique, il est impensable de pouvoir récupérer de telles formes comme occurrences dun même vocable en dehors dune véritable lemmatisation. Deuxième exemple : quomodo " comment " 5 QVOMODO adverbe relatif quo modo A. 94, 1, 7 A. 142, 1, 21 A. 142, 1, 41 A. 142, 1, 46 quomodo D. 252, 2, 5 5 QVOMODO adverbe interrogatif quo modo A. 2, 1 ,25 A 116, 1, 2 A. 151, 1, 3 quomodo A. 83, 1, 75 A. 154, 1, 5 La lemmatisation permet ici, non seulement de résoudre le problème de la variante graphique signalé plus haut (un mot ou deux mots), mais encore de régler celui de lhomonymie entre deux adverbes aux fonctions syntaxiques différentes. Ainsi lindex offre au chercheur la possibilité de formuler toutes les requêtes envisageables, depuis la plus spécifique jusquà la plus englobante : un logiciel dinterrogation pourra en effet aisément proposer de relever les occurrences de quomodo en un seul mot et à fonction dadverbe interrogatif (deux occurrences) aussi bien que celles du lemme qvomodo adverbe relatif (cinq occurrences) ou encore celles de la forme quo modo en deux mots (sept occurrences), etc. Exactement de la même façon sont enregistrées les abréviations sous leur lemme de référence ainsi que les variantes morphologiques ; on peut même ajouter les variantes éditoriales si besoin est. Une comparaison entre les textes (calcul de distance intertextuelle) qui souhaite prendre en compte les occurrences des vocables employés sans être soumise aux distorsions des variations de formes pourra bien sûr construire ses index fréquentiels et ses tableaux de contingence à partir de lindex lemmatisé. On voudrait, pour terminer, noter un autre avantage de cette lemmatisation et de létiquetage grammatical qui laccompagne : dans la base de données du L.A.S.L.A., toutes les recherches lexicologiques peuvent être croisées avec un paramètre grammatical, en particulier avec une contrainte sur la classe de mots : ainsi non seulement peut-on chercher, par exemple, toutes les occurrences des lemmes terminés par ilis (sans avoir à se soucier de limpact de la déclinaison qui peut produire des formes en ilem, -ile, -ili, ilibus, etc.), mais encore peut-on restreindre la recherche aux seuls adjectifs en ilis. De même peut-on créer un index fréquentiel totalement fiable (aucune occurrence oubliée, aucun homonyme confondu), mais encore peut-on créer des sous-index selon la classe de mots : on obtiendra ainsi sans difficulté les 30 substantifs les plus fréquents dune uvre ou ses 50 premiers verbes et eux seuls. Les calculs de spécificités et les analyses thématiques sen trouvent affinées, si on le souhaite. On aura compris que nous défendons avec ferveur la lemmatisation des corpus informatisés. Pour nous qui travaillons sur la distribution et le signifié des catégories grammaticales, elle nest pas un luxe inutile, elle est une nécessité. Elle ouvre en effet des champs dexploration qui, sinon, restent inaccessibles, elle affine et stabilise les traitements quantitatifs. Pour lensemble de la communauté linguistique, elle devrait apparaître de plus en plus comme un des critères de réutilisabilité des corpus, à côté de lannotation documentaire et du choix des formats : car, par les traitements préalables quelle impose, elle garantit la qualité du corpus, sa fiabilité et donne accès à des données clairement définies qui seules pourront fournir la base commune à diverses études comparatives. Nous sommes consciente néanmoins quelle nécessite un gros investissement dont la rentabilité doit toujours être évaluée en fonction des besoins et des projets de recherche.
Références bibliographiques : Brunet, É. (2000) : " Qui lemmatise dilemme attise ", dans L. Jose et A. Theissen (éds.), Scolia, n°13 (Actes des 11èmes rencontres linguistiques en pays rhénan), Strasbourg, pp. 7-32. Évrard, É. & Mellet, S. (1998) : " Les méthodes quantitatives en langues anciennes ", Lalies n°18, pp. 111-155. LABBE Dominique, (1990), Normes de saisie et de dépouillement des textes politiques, Grenoble, Cahier du CERAT. Mellet, S. (1996) : " Les atouts de la lemmatisation ", dans G. Moracchini (éd.), Bases de données linguistiques : conceptions, réalisations, exploitations (Actes du colloque international de Corte), Corte, pp. 309-316. Purnelle, G. (1988) : Cato, De Agricultura, Fragmenta omnia seruata : Index verborum, liste de fréquence, relevés grammaticaux, Liège : CIPL, série du L.A.S.L.A. n° 15. Purnelle, G. (1996) : " Utilisation dune banque de données de textes latins lemmatisés et analysés. Problèmes spécifiques aux données linguistiques ", dans G. Moracchini (éd.), Bases de données linguistiques : conceptions, réalisations, exploitations (Actes du colloque international de Corte), Corte, pp. 295-307. |