Nouveautés
Appels à communication
Comités
JADT
Soumission
Articles
Thèmes
Archives
Carnet d'adresses
Index des auteurs
La page CORPORA
JADT (1998-2010) et GADT
La page des liens
Comptes-rendus d'ouvrages
La page Forum

Accueil Contact

Lexicometrica
Numéro spécial, 2003

Responsable du numéro Dominique Labbé
Thème du numéro Autour de la lemmatisation
Sommaire de ce numéro

Dominique Labbé ( CERAT-IEP - BP 48 - F38.402 Grenoble Cedex cerat@iep.upmf-grenoble.fr)

    "Analyse des données textuelles et Statistique lexicale",  

      Résumé

      Cette conférence plaide pour des données textuelles de qualité, normalisées et étiquetées. Elle illustre leur utilité à l'aide d'un exemple : le sens du mot "amour" dans l'oeuvre de Corneille. La technique de l'étiquetage est présentée. Enfin, on évoque la nécessaire coopération entre les chercheurs pour la réalisation des outils de normalisation et d'étiquetage et pour la constitution de corpus de référence.

      Abstract

      This presentation argues in favor of high quality normalized and tagged textual data. An example is given : the sense of the word "love" in Corneille's plays. Then it explains the main principles for normalization and tagging. At least, large cooperation between researchers is needed to elaborate norms and tagging tolls and to create large tagged corpora.

      Mots clés : textual data, normalization, tagging, corpora


Sylvie Mellet ( C.N.R.S., " Bases, Corpus et Langage ") (UMR 6039, Nice)

    "Lemmatisation et encodage grammatical : un luxe inutile ?"  

      Résumé

      C’est à partir d’une base de données de textes latins que la question posée en titre de cet article sera examinée ; on verra cependant que les points abordés, les réponses fournies, les enjeux détectés ont une portée qui dépasse largement le cadre des études classiques et que la contingence de nos compétences spécifiques ne doit pas occulter l’importance d’un problème méthodologique très général.

      Mots clés : ...


Bastien KINDT ( Institut orientaliste Collège Érasme Place Blaise Pascal, 1 B-1348 Louvain-la-Neuve (Belgique) kindt@ori.ucl.ac.be)

    "Avancées dans le traitement automatique du grec ancien à l'U.C.L. L'analyse des textes au service d'une description lexicale de la langue. Une description lexicale de la langue au service de l'analyse des textes"  

      Résumé

      Le "Projet de recherche en lexicologie grecque" mené à l'U.C.L. aborde l'étude de la langue grecque ancienne par l'analyse de son lexique. Ces recherches se fondent sur un examen direct des sources par le biais de la lemmatisation automatisée. Ces travaux génèrent des données lexicales qui, rassemblées dans un dictionnaire électronique, offriront du lexique une image exhaustive et cohérente. La lemmatisation, exercice de regroupement des différentes actualisations d'un mot sous une même unité lexicale, impose une réflexion sur la norme de dépouillement et sur les méthodes de levée des ambiguïtés lexicales. Les problèmes inhérents au grec ancien en ces deux domaines, les solutions apportées et les avancées réalisées sont évoqués.

      Abstract

      The "Research project in Greek lexicology" carried out at the U.C.L. approaches the study of Ancient Greek language by analysing its vocabulary. This research is based on a direct examination of the sources by means of automated tagging. This work generates lexical data which, gathered in an electronic dictionary, will offer an exhaustive and coherent image of Greek vocabulary. The lemmatisation, exercise of regrouping various actualizations of a word under the same lexeme, imposes a reflexion on the standard of examination and on the treatment methods of lexical ambiguities. The inherent problems to Ancient Greek in these two fields, solutions brought and progress made are evoked.

      Mots clés : : Grec ancien, lemmatisation, corpus, Thesaurus Patrum Graecorum, norme, ambiguïté, unicode, unitex

      Keywords : Ancient Greek, tagging, corpus, Thesaurus Patrum Graecorum, normalization, ambiguity, unicode, unitex

Mots-clés textual data, normalization, tagging, corpora, Ancient Greek, tagging, corpus, Thesaurus Patrum Graecorum, normalization, ambiguity, unicode, unitex, Grec ancien, lemmatisation, corpus, Thesaurus Patrum Graecorum, norme, ambiguïté, unicode, unitex


LEXICOMETRICA (ISSN 1773-0570)
Coordinateurs de la rédaction : André Salem, Serge Fleury
Contacts:  lexicometrica@univ-paris3.fr
ILPGA, 19 rue des Bernardins, 75005 Paris France