Lexicometrica

Nouveautés

Appels à communication

Comités

JADT

Soumission

Articles

Thèmes

Archives

Carnet d'adresses

Index des auteurs

La page CORPORA

JADT (1998-2010) et GADT

La page des liens

Comptes-rendus d'ouvrages

La page Forum

Accueil

Contact

Lexicometrica
Numéro spécial, 2003

Responsable du numéro	Dominique Labbé
Thème du numéro	Autour de la lemmatisation
Sommaire de ce numéro
Dominique Labbé ( CERAT-IEP - BP 48 - F38.402 Grenoble Cedex cerat@iep.upmf-grenoble.fr) "Analyse des données textuelles et Statistique lexicale", Résumé Cette conférence plaide pour des données textuelles de qualité, normalisées et étiquetées. Elle illustre leur utilité à l'aide d'un exemple : le sens du mot "amour" dans l'oeuvre de Corneille. La technique de l'étiquetage est présentée. Enfin, on évoque la nécessaire coopération entre les chercheurs pour la réalisation des outils de normalisation et d'étiquetage et pour la constitution de corpus de référence. Abstract This presentation argues in favor of high quality normalized and tagged textual data. An example is given : the sense of the word "love" in Corneille's plays. Then it explains the main principles for normalization and tagging. At least, large cooperation between researchers is needed to elaborate norms and tagging tolls and to create large tagged corpora. Mots clés : textual data, normalization, tagging, corpora Sylvie Mellet ( C.N.R.S., " Bases, Corpus et Langage ") (UMR 6039, Nice) "Lemmatisation et encodage grammatical : un luxe inutile ?" Résumé C’est à partir d’une base de données de textes latins que la question posée en titre de cet article sera examinée ; on verra cependant que les points abordés, les réponses fournies, les enjeux détectés ont une portée qui dépasse largement le cadre des études classiques et que la contingence de nos compétences spécifiques ne doit pas occulter l’importance d’un problème méthodologique très général. Mots clés : ... Bastien KINDT ( Institut orientaliste Collège Érasme Place Blaise Pascal, 1 B-1348 Louvain-la-Neuve (Belgique) kindt@ori.ucl.ac.be) "Avancées dans le traitement automatique du grec ancien à l'U.C.L. L'analyse des textes au service d'une description lexicale de la langue. Une description lexicale de la langue au service de l'analyse des textes" Résumé Le "Projet de recherche en lexicologie grecque" mené à l'U.C.L. aborde l'étude de la langue grecque ancienne par l'analyse de son lexique. Ces recherches se fondent sur un examen direct des sources par le biais de la lemmatisation automatisée. Ces travaux génèrent des données lexicales qui, rassemblées dans un dictionnaire électronique, offriront du lexique une image exhaustive et cohérente. La lemmatisation, exercice de regroupement des différentes actualisations d'un mot sous une même unité lexicale, impose une réflexion sur la norme de dépouillement et sur les méthodes de levée des ambiguïtés lexicales. Les problèmes inhérents au grec ancien en ces deux domaines, les solutions apportées et les avancées réalisées sont évoqués. Abstract The "Research project in Greek lexicology" carried out at the U.C.L. approaches the study of Ancient Greek language by analysing its vocabulary. This research is based on a direct examination of the sources by means of automated tagging. This work generates lexical data which, gathered in an electronic dictionary, will offer an exhaustive and coherent image of Greek vocabulary. The lemmatisation, exercise of regrouping various actualizations of a word under the same lexeme, imposes a reflexion on the standard of examination and on the treatment methods of lexical ambiguities. The inherent problems to Ancient Greek in these two fields, solutions brought and progress made are evoked. Mots clés : : Grec ancien, lemmatisation, corpus, Thesaurus Patrum Graecorum, norme, ambiguïté, unicode, unitex Keywords : Ancient Greek, tagging, corpus, Thesaurus Patrum Graecorum, normalization, ambiguity, unicode, unitex
Mots-clés	textual data, normalization, tagging, corpora, Ancient Greek, tagging, corpus, Thesaurus Patrum Graecorum, normalization, ambiguity, unicode, unitex, Grec ancien, lemmatisation, corpus, Thesaurus Patrum Graecorum, norme, ambiguïté, unicode, unitex

LEXICOMETRICA (ISSN 1773-0570)
Coordinateurs de la rédaction : André Salem, Serge Fleury
Contacts: lexicometrica@univ-paris3.fr
ILPGA, 19 rue des Bernardins, 75005 Paris France

Lexicometrica Numéro spécial, 2003

Lexicometrica
Numéro spécial, 2003