Accueil Comites Articles News Soumission Logo

Lexicometrica
Numéro spécial, 2003

Sylvie Mellet

C.N.R.S., " Bases, Corpus et Langage "

(UMR 6039, Nice)

 

Lemmatisation et encodage grammatical : un luxe inutile ?

 

C’est à partir d’une base de données de textes latins que la question posée en titre de cet article sera examinée ; on verra cependant que les points abordés, les réponses fournies, les enjeux détectés ont une portée qui dépasse largement le cadre des études classiques et que la contingence de nos compétences spécifiques ne doit pas occulter l’importance d’un problème méthodologique très général.

La première base de données textuelles latines ayant enrichi les textes bruts a été constituée par le L.A.S.L.A. (Laboratoire d’Analyse Statistique des Langues Anciennes) de l’Université de Liège, à partir de 1961. Cette base de données rassemble aujourd’hui une vingtaine d’auteurs latins différents (pour la plupart d’époque classique ou du haut-empire), soit encore 160 textes et environ 1,7 million de mots. L’objectif était, au départ, d’offrir à l’utilisateur les moyens de retrouver automatiquement toutes les occurrences d’un même vocable, quelles que fussent ses variantes orthographiques et ses formes flexionnelles ; ce qui, pour une langue comme le latin dans laquelle non seulement les verbes se conjuguent, mais aussi les noms et les adjectifs se déclinent, impose d’emblée le choix de la lemmatisation, c’est-à-dire l’établissement d’un lien entre chaque forme graphique (ou mot) du texte et l’entrée correspondante dans un dictionnaire de référence (ou lemme).

Ce regroupement des formes sous leur lemme implique une analyse morphologique préalable : ainsi pour savoir si la forme legis doit être rattachée au verbe lego ou au substantif lex, il convient d’avoir analysé la proposition dans laquelle apparaît cette forme et d’avoir déterminé si l’on a affaire à un verbe à la deuxième personne du singulier (tu lis) ou à un substantif au génitif singulier (de la loi). L’idée s’est alors imposée de conserver aussi ces analyses sous la forme d’un code alpha-numérique qui suit chaque mot dans la linéarité du texte et de prévoir des outils de lecture et d’exploitation automatique de ces codes.

On le voit, lemmatisation et encodage grammatical sont deux opérations distinctes qui, pour être complémentaires, ne sont pas nécessairement associées et, surtout, pas toujours conservées sous un format récupérable dans les bases de données. Le L.A.S.L.A. a eu le mérite de comprendre les avantages des deux opérations dès le début des années 60. La méthode de traitement est semi-automatique : à partir d’un dictionnaire des radicaux (ou bases) d’une part et d’une liste de toutes les finales envisageables en latin d’autre part, le programme effectue une lecture régressive de chaque forme et en propose toutes les analyses morphologiques possibles. Par exemple, la forme naturae est ainsi lue et analysée :

natura-e rien

natur-ae génitif singulier

datif singulier du substantif natura

nominatif pluriel

vocatif pluriel

natu-rae rien

nat-urae participe futur du verbe nascor

nat-urae participe futur du verbe no

C’est alors le philologue qui intervient pour sélectionner manuellement l’analyse juste en contexte. Cette dernière étape est évidemment longue ; mais elle permet de disposer in fine d’un texte lemmatisé, totalement désambiguïsé et enrichi d’étiquettes morphologiques fiables.

Chaque base textuelle est donc composée de trois fichiers (cf. Mellet : 1996) : le fichier comprenant le texte étiqueté, l’index des lemmes où, sous chaque entrée, sont rassemblées toutes les formes afférentes accompagnées de leur référence exacte dans le texte (et c’est là que s’enregistrent aussi les levées d’homonymie) et enfin l’index des propositions subordonnées. Une telle structuration permet d’effectuer automatiquement et de manière très efficace (i.e. rapide, exhaustive et non bruitée) des recherches très variées portant soit sur une forme graphique, soit sur une chaîne de caractères (suffixes, préfixes par ex.), soit sur les occurrences d’un lemme quelles que soient ses formes fléchies (sum, es, est, sunt, fuit, ero, eram, etc.), soit sur un type de subordination (toutes les relatives au subjonctif), soit sur une catégorie grammaticale (tous les noms de la 3ème déclinaison à l’ablatif singulier). Nous n’insisterons pas sur la richesse de telles possibilités, que nous avons présentées ailleurs ; on sait bien en effet que la lemmatisation offre une solution élégante et efficace à certains problèmes majeurs du traitement automatique des textes tels que la levée d’ambiguïté et le traitement préalable des homonymies ; on sait aussi que l’encodage grammatical ouvre les corpus étiquetés à tous les types de recherches linguistiques là où les textes bruts n’intéressaient guère que les lexicographes et lexicologues. En revanche, nous voudrions revenir ici sur un autre des atouts majeurs de la lemmatisation, trop souvent négligé et sous-estimé, à savoir le traitement des variantes orthographiques et morphologiques.

 

1. Variantes orthographiques et morphologiques

Le latin est une langue à l’écriture relativement transparente : elle est en effet quasiment phonogrammique, chaque lettre étant toujours et partout prononcée et transcrivant constamment un seul et même phonème. Cependant l’orthographe est mal stabilisée et trahit souvent les évolutions phonétiques en cours ainsi que l’accueil facilement accordé aux formes orales et dialectales. Une telle malléabilité induit dans les textes les variantes orthographiques que nous allons détailler ci-dessous :

1.1. Evolutions phonétiques et absence de norme stabilisée :

On relève à ce titre :

_ des haplologies facultatives : exspectare / expectare " attendre " ; exsilium / exilium " exil " ;

► des assimilations consonantiques transcrites ou non : inlicio / illicio " je séduis " ; adtuli / attuli " j’ai apporté " ; quidquid / quicquid " quoi que ce soit " ;

► des transcriptions facultatives de phonèmes faibles (le h notamment ou les nasales devant fricatives et sifflantes) : harena / arena " le sable " ; exhibeo / exibeo " je montre " ; consul / cosul " le consul " ;

► des traces de monophtongaisons en cours : saeta / seta " la soie " ; plaudite / plodite " applaudissez " ; poenicus / punicus " punique, carthaginois ".

Comme on le devine à travers ces quelques exemples, de telles alternances graphiques ne sont pas rares : elles touchent de nombreuses séquences graphiques et des lexèmes très courants ; nous n’en avons pas fait le décompte exhaustif, mais nous pensons que l’impact de ces variantes n’est pas négligeable, même dans des traitements statistiques de quelque ampleur.

 

1.2. Les élisions, épenthèses, aphérèses et contractions diverses :

Deux phénomènes sont ici à distinguer :

_ la transcription de formes orales (notamment dans les textes de théâtre) qui alternent avec la forme pleine normalement attendue à l’écrit : certumst / certum est " c’est certain " ; credin ? / credisne ? " tu crois ? " ;

► les problèmes liés à l’édition moderne de textes qui, dans leur forme originelle, pratiquaient la scriptio continua (écriture continue ne séparant pas les mots par des blancs et ne connaissant aucun signe de ponctuation) : ces choix éditoriaux modernes créent des alternances, sans doute artificielles, du type : quo modo ? " de quelle manière ? " / quomodo ? " comment ? " ; et iam " et déjà " / etiam " aussi " ; animum aduertere " prêter attention, tourner son esprit vers " / animaduertere " remarquer ".

 

1.3. Les abréviations :

Elles sont nombreuses dans les textes latins ; on peut citer, entre autres :

_ les prénoms : M. pour Marcus, M’. pour Manius, L. pour Lucius, etc. ;

_ les chiffres romains, bien connus, mais aussi les noms de mesure et de monnaie ;

► les dates : a.d. VI Kal. Ian. = ante diem sextum Kalendas Ianuarias " le sixième jour avant les calendes de janvier " ;

► les formules rituelles : SPQR = Senatus Populusque Romanus (marque de l’état romain) ; V. = Vale " porte-toi bien " (formule de salutation à la fin d’une lettre).

 

1.4. Les variantes morphologiques :

Les textes latins portent parfois la trace de l’évolution diachronique de la langue et des incertitudes que celle-ci fait peser sur la morphologie flexionnelle. Cela est particulièrement vrai dans les textes préclassiques tels les comédies de Plaute ; mais la présence de variantes n’est pas exclue non plus ultérieurement.

Ainsi voit-on un même texte hésiter entre la forme classique de génitif singulier pater familiae (comme rosae) et sa forme archaïque pater familias (dont la pérennité ne s’est pas démentie) ; ou entre deux formes concurrentes d’ablatif singulier pour les noms dont le thème se termine par un —i : igni / igne " par le feu " ; ou encore entre deux formes de subjonctif présent du verbe être : sit / siet " qu’il soit " ou deux formes du subjonctif parfait du verbe faire : fecerit / faxit " qu’il ait fait ".

 

On le voit, les difficultés rencontrées ne sont pas vraiment spécifiques au latin : d’une part les dialectologues et les historiens du français auront reconnu des phénomènes qui leur sont familiers ; d’autre part, les francisants qui travaillent sur la langue moderne auraient sans doute intérêt à s’interroger davantage qu’ils ne le font généralement sur l’existence de telles variations dans les textes qu’ils étudient. Car, sauf à travailler uniquement sur des textes de facture extrêmement classique, on rencontre nécessairement des graphies oralisantes qui tentent de reproduire la parole d’un personnage et le heurt de ses mots, que celui-ci se traduise par des élisions ou, au contraire, par des liaisons appuyées ; et plus on intègre dans son corpus des romans contemporains, plus le procédé devient systématique (cf. Annie Saumont ou Jean Echenoz, par exemple ; mais Jean Giono ne s’en privait pas non plus). Et si d’aventure on quitte la littérature pour entrer dans le monde journalistique ou, mieux encore, pour télécharger des textes via l’internet, surgissent alors une multitude d’abréviations et de sigles qui sont autant de variantes de lexèmes ou de syntagmes complets, ainsi que des variantes orthographiques et morphologiques qui, pour n’être pas reconnues par l’Académie ni par l’école républicaine, n’en affectent pas moins la qualité des corpus étudiés. Plutôt que de passer outre, il nous semble préférable de se donner des moyens efficaces pour prendre en compte cette réalité.

 

2. Lemmatisation et traitement de la variation

La lemmatisation permet précisément de dégager les analyses de corpus des aléas de la variation tout en conservant la forme originelle et authentique des textes : elle satisfait donc à la fois aux exigences de la statistique linguistique (en particulier dans le cadre de la comparaison de textes) et à celles de la philologie. Il suffit de garder présent à l’esprit le principe fondamental que tout traitement de lemmatisation doit respecter la graphie d’origine et permettre de la retrouver à tout moment ; il ne s’agit donc pas de transformer le texte, de le lisser au profit d’une norme dont on se demande d’ailleurs ce qu’elle pourrait être. Mais il faut, dans le même temps, pouvoir s’en affranchir.

La solution à cette double exigence réside dans la création d’un index alphabétique lemmatisé. Chaque forme du texte est rapportée à son lemme (déterminé de préférence avec l’aide d’un dictionnaire et d’une grammaire de référence afin que les choix restent stables durant tout le traitement, quelle que soit sa durée et le nombre d’opérateurs qui y participent) et ce sont ces lemmes qui sont classés par ordre alphabétique, constituant ainsi un index (ou dictionnaire du texte) ; sous chaque entrée de cet index sont rassemblées les différentes formes qui s’y rapportent, avec leur graphie d’origine et leur référence précise dans le texte. Tel est le fichier fondamental de la base, le fichier charnière, le médiateur qui permet de circuler rapidement et en toute sécurité du dictionnaire de référence au texte, du lemme à la forpe, du stan;es ; et &nbavariantes orP>

La squelques exemples, dit ct lapoulesrunacute;s à tou146;index des p#146;&eac#15ne vde r&eCat touv ici l). r dandeuxiiption de eacute;cisecute;diatenen conrodunt le lques execde traiation toucute;volutqucute;s &agprofisophe est1sp;:

1.1Pi&egexemple ; me ficme &ag>. Certeho>&ecit; ausst enbsp;"&nb>

LesCicme &agaois ficurrences d le t46;&eac#15ne vde r&eCat tsp;: ainsph&eisophe ess 22, 135 en 138 sta&ecTtemecute; de pr&146;Acadgrlt&eau/I>&nb.>

] ;parADVEHO>

LIGN="JUSTIFY"> vocertexeris>

►>i. Cha22, 4 ,22>

►>aruuer m t

►>i. Cha135, 7, 29>

►>aruuhanI>

►>i. Cha138, 1, 8>

Ce resois fiches sousefférentesct d’avoidinar le L.formionnel ptiq#146;il soit46;agit doncermes concuruentcute;es ; et plu146;on a at citr s&# la continuenon de fitvo des texmodcielons et mes cl noms neacute;gligeable, mbsp;; et ps sontefférentesct d&# efu de un &#raiation tous la cr&me du texeacute;fixes psp;; me fr&me du malemen>adtul>. C-uvoir le daer au pls purtout, p partic rapint l,grave; un suorme du timilaticute;e de arena>. C-sp;; et ce on le devt, lesCat t admles hisx fornonc&eaions et de relatnscrites chigrave;s lent su. Séf&evrave;s lenors uneine nom la t leacute; des corsubminfugqu’ilsolongue&ps, pnroducute;sent ´, &ags les bases de nlemme (sé

1.1Dième permple ; me >. Cmodo&nb<" comment ?¬&nb>

Les5 ;parQVOMODO adbe ativemf>

LIGN="JUSTIFY"> voc modo&nb>

►>i. Cha94, 1, 7>

►>i. Cha142, 1, 21>

►>i. Cha142, 1, 41>

nomA>. Cha142, 1, 46>

►>modo&nb<

►>i. Cha252, 2, 5>

_ ;parQVOMODO adbe erroger vemf>

LIGN="JUSTIFY"> voc modo&nb>

►>i. Cha2, 1 ,25>

►>i. C 116, 1, 2>

►>i. Cha151, 1, 3>

►>modo&nb<

►>i. Cha83, 1, 75>

nomA>. Cha154, 1, 5>

lemmatisation permet pr& &a,n seulement lesréf&esrione proc&eegrave;me m&ela variationen phique (oune deacute;as us le t-em (m&ecot deux fors, q)ais ausore entréf&eg ci-di-ciapr&146;Acaonymies&ntre deux foradbe quomodo&nb> est n seul et cot à celmeions t#146;avoidbe erroger vemf (x op&errences d&)ssi lesn con celle-cis lemme &agquomvdo&nb> estadbe ativemf (cinq&errences d&)sencore entles de la phime nat modo&nb> est n x fors, q (sept&errences d&)tc.&nb>

Ete dat de la varcirc;me vocfaedil;aisseuloenrichstrentcute;es les diféviations et s leur lemme impréférence au ti que lvariantes morphologiques :

Unemparaison de re la ftextes via(calt&e disposce d&#errogtuelle es)i sont uha de dre en compte cet occurrences descable, qsulesloycute;s &ags douirc;tre pasmis.htex fordorienns ou, variantens dansermes con&eait n cons&uc;trernstiture la sincer desfacute;f&encesti queses for e, q fordontinue ce r&erave; partir de 196146;index desme (sé

On le drion, au r t&eaine par,n sten autre desntage qu&dette r&ematisation et encl’état et&ea grammatical ouv leur46;accueiagn&eabsp;: ells la cr&e de données de tuA.S.L.A. a ,ptes les relatrches lingcologueses possent lesirc;tre comps&nbsute;es de c leuuarticagrave;nes commmatical ou, particulier danc leuuaentraire,nen la lanss&eae monnatbsp;: ellti que seulement lest ci un rches lrar exemple&nb,utes les occurrences dlemmes quiminé dear ord51;i) o (s la ir le ;; et &nbavsmisciee 196146;indect de cesdeuxcute;classison &ag permeprononre la formes soue#151;i, etc-i, etc-i, L, etc.&nb)ais ausore entt ci un tentre ndra retrorches lx forlemedjectifs se e#151;i) o. Dême temt ci un rtcute;es lr index (oufacute;f&encesti qtalement d&ebles.< (un sin lrrences d le eacute;es p,cun sigonymiesentradameu)ais ausore entt ci un rtcute;es lr 1eur -estex sontellemmanss&eae monnatbsp;: elloffrbti ndralti ques douticultés rs occ30bstantif en tforlemedes varcalt&ee subjacute;cifiqueceacute;s, q les adjeyses de eacute;&acique (cs#146;en affuver &ainsculacute;es de,ntesle devt uha deP>

On le aienmprenaiue nous allxcute;claf nd appu leufer ala langatisation doitcorpus &eainmat r&nbsute;es Plut n all travaillent suborandeuxrentib/n et encloune dquecute; des corpeacute;gorie grsammaticale (tpoul non 46;est pas d&eluxe inutile&nb,le est en normcute;cessaireacute;.

 

On Rcute;férence auaseeb(iaphiques etsp;:

LIGN="JUSTIFY">On Bru, sur&Ete;.

, etc 46;76;13 (Actdlem11P>ème d&econtre n&inguistiques l&apartiyelaacute;nom&an)aiSttesbs egar p. 7-32P>

&nbsEte;.,

La sABBE Dnatie (eou(1990)aiSenNes de subj auit de monacute;partouillnt des grates pr&eguites

etcGcono, m&eCar cha urCERATP>

La let&nbaiSP (1996bsp;: cesot; com varuts majla lemmatisation, tsp;?¬&nbags lesG. Moc" Ahtieeacute;cridb)aiSenBs de données. Lnguistiques l&sp;: ellceioeons fa,eacute;alit&eion, tpouloitation auI>) o (Actdurpunt nouernet,anal//E r&eCent,),eCent,ar p. 309-316P>

La Per s, praGP (1988bsp;: harCat , D&edgrlt&eau/a, Fres cs u omniara euatasp;: Ix sonbe , il egrave;ge, &sp;: CIPL,eacute;cur gratuA.S.L.A. a c 46;76; 15P>

La Per s, praGP (1996bsp;: cesot; comUisateur d’un ) o (Actdurpunt nouernet,anal//E r&eCent,),eCent,ar p. 295-307.>

B>B>B>B>B>