|
|
|
Lexicometrica
Numéro spécial, 2003
Responsable
du numéro |
Dominique Labbé |
Thème
du numéro |
Autour de la lemmatisation |
Sommaire
de ce numéro
|
Dominique Labbé ( CERAT-IEP - BP 48 - F38.402 Grenoble Cedex cerat@iep.upmf-grenoble.fr)
"Analyse des données textuelles et Statistique lexicale",
Résumé
Cette conférence plaide pour des données textuelles de qualité,
normalisées et étiquetées. Elle illustre leur utilité à l'aide d'un exemple :
le sens du mot "amour" dans l'oeuvre de Corneille. La technique de l'étiquetage est présentée.
Enfin, on évoque la nécessaire coopération entre les chercheurs pour la réalisation
des outils de normalisation et d'étiquetage et pour la constitution de corpus de référence.
Abstract
This presentation argues in favor of high quality normalized and tagged textual data.
An example is given : the sense of the word "love" in Corneille's plays. Then it explains the main principles
for normalization and tagging. At least, large cooperation between researchers is needed to elaborate norms
and tagging tolls and to create large tagged corpora.
Mots clés : textual data, normalization, tagging, corpora
Sylvie Mellet ( C.N.R.S., " Bases, Corpus et Langage ")
(UMR 6039, Nice)
"Lemmatisation et encodage grammatical : un luxe inutile ?"
Résumé
Cest à partir dune base de données de textes latins
que la question posée en titre de cet article sera examinée ; on verra cependant
que les points abordés, les réponses fournies, les enjeux détectés
ont une portée qui dépasse largement le cadre des études classiques et
que la contingence de nos compétences spécifiques ne doit pas occulter limportance
dun problème méthodologique très général.
Mots clés : ...
Bastien KINDT ( Institut orientaliste Collège Érasme Place Blaise Pascal, 1 B-1348 Louvain-la-Neuve (Belgique) kindt@ori.ucl.ac.be)
"Avancées dans le traitement automatique du grec ancien à l'U.C.L. L'analyse des textes au service d'une description lexicale de la langue. Une description lexicale de la langue au service de l'analyse des textes"
Résumé
Le "Projet de recherche en lexicologie grecque" mené à l'U.C.L. aborde l'étude de la langue grecque ancienne par l'analyse de son lexique. Ces recherches se fondent sur un examen direct des sources par le biais de la lemmatisation automatisée. Ces travaux génèrent des données lexicales qui, rassemblées dans un dictionnaire électronique, offriront du lexique une image exhaustive et cohérente. La lemmatisation, exercice de regroupement des différentes actualisations d'un mot sous une même unité lexicale, impose une réflexion sur la norme de dépouillement et sur les méthodes de levée des ambiguïtés lexicales. Les problèmes inhérents au grec ancien en ces deux domaines, les solutions apportées et les avancées réalisées sont évoqués.
Abstract
The "Research project in Greek lexicology" carried out at the U.C.L. approaches the study of Ancient Greek language by analysing its vocabulary. This research is based on a direct examination of the sources by means of automated tagging. This work generates lexical data which, gathered in an electronic dictionary, will offer an exhaustive and coherent image of Greek vocabulary. The lemmatisation, exercise of regrouping various actualizations of a word under the same lexeme, imposes a reflexion on the standard of examination and on the treatment methods of lexical ambiguities. The inherent problems to Ancient Greek in these two fields, solutions brought and progress made are evoked.
Mots clés : : Grec ancien, lemmatisation, corpus, Thesaurus Patrum Graecorum, norme, ambiguïté, unicode, unitex
Keywords : Ancient Greek, tagging, corpus, Thesaurus Patrum Graecorum, normalization, ambiguity, unicode, unitex
|
Mots-clés |
textual data, normalization, tagging, corpora, Ancient Greek, tagging, corpus, Thesaurus Patrum Graecorum, normalization, ambiguity, unicode, unitex, Grec ancien, lemmatisation, corpus, Thesaurus Patrum Graecorum, norme, ambiguïté, unicode, unitex |
|
|