Lexicometrica

Nouveautés

Appels à communication

Comités

JADT

Soumission

Articles

Thèmes

Archives

Carnet d'adresses

Index des auteurs

La page CORPORA

JADT (1998-2010) et GADT

La page des liens

Comptes-rendus d'ouvrages

La page Forum

Accueil

Contact

Lexicometrica
Numéro spécial, 2002

Responsable du numéro	Jean Véronis
Thème du numéro	Alignement lexical dans les corpus multilingues
Sommaire de ce numéro
Hervé Déjean, Éric Gaussier (XRCE, 6 chemin de Maupertuis, 38240 Meylan, France) "Une nouvelle approche à l'extraction de lexiques bilingues à partir de corpus comparables", Abstract We present in this article a new method for automatic extraction of bilingual lexicons from comparable corpora. We first anaylze the assumptions underlying the research works led in this domain, and then detail the associated algorithms. Lastly, we evaluate our approach on two different corpora, and show how the combination of our method with standard ones significantly improves the quality of the extracted lexicons Keywords : bilingual lexicon extraction, comparable corpora, multilingual thesaurus Résumé Nous proposons dans cet article une nouvelle méthode pour l'extraction de lexiques bilingues de corpus comparables. Pour ce faire, nous revenonstout d'abord sur les hypothèses sous-jacentes aux travaux dans ce domaine, et détaillons ensuite les algorithmes qui en découlent. Enfin, nous évaluons notre approche sur deux corpus aux caractéristiques différentes, et montrons comment la combinaison de notre méthode avec les méthodes standard améliore de façon significative les résultats Mots clés : extraction de lexique bilingue, corpus comparable, thesaurus multilingue Hatem Ghorbel , Giovanni Coray (École Polytechnique Fédérale de Lausanne, Faculté Informatique et Communications, Laboratoire d'Informatique Théorique, CH 1015 Écublens), André Linden, Olivier Collet, Wagih Azzam (Université de Genève, Faculté des lettres, Département MELA, 3, rue de Candole, CH 1211 Genève 4) "L'alignement multicritères des documents médiévaux", Abstract The aim of text alignment is to establish correspondence relations between subparts of two or more translations or versions of the same document. The majority of the methods in use in the technique of alignment are based on the statistical analysis of word or character frequencies or of string occurrences. In order to improve the efficiency of the process of alignment, other methods have incorporated some structural properties of the documents (e.g. chapters, sections, paragraphs, etc.) as further criteria.When applying the problem of alignment to parallel versions of medieval French manuscripts produced between the XIIth and the XVIth century, classical approaches have shown their limits due to the considerable variation of the appearance and content of these documents. This is basically caused by, (a) the partial evolution of the language, second, (b) the variation of the style (verse and prose) and (c) the various personal interpretations that could come about when rewriting new versions. In this article, we adapt the technique of alignment to parallel versions of ancient texts and we propose a multicriteria approach which takes into account, first the similarities at the lexical, morpho-syntaxic and lexico-semantic levels, and second the similarities of the typographic and rhetorical structure of texts. Keywords : multicriteria alignment, parallel versions of medieval manuscripts, linguistic similarities, structural similarities Résumé Le but de l'alignement des textes est la mise en correspondance des sous-parties similaires de deux ou plusieurs traductions ou versions d'un même document. La plupart des méthodes utilisées dans la technique de l'alignement se fondent sur l'analyse statistique des fréquences de mots ou de caractères, ou sur la cooccurrence des chaînes que ceux-ci composent. Afin d'améliorer l'efficacité de ces méthodes, d'autres approches incorporent certaines propriétés linguistiques (morpho-syntaxiques et lexico-sémantiques) et structurelles (marques de chapitres, de sections, etc.) des documents. Lorsqu'on applique de telles techniques aux versions parallèles des manuscrits en langue française produits entre le XIIème et XVème siècle, celles-ci montrent leurs limites en raison de la variation considérable de l'aspect et du contenu de ces documents. Les causes en sont premièrement, l'évolution de la langue, deuxièmement, les possibilités de transformation stylistique des textes, enfin, les diverses interprétations personnelles auxquelles la réécriture de nouvelles versions peut donner lieu. Cet article expose les résultats d'une adaptation de la technique d'alignement aux versions parallèles des écrits anciens à partir d'une approche multicritères qui tient compte d'une part de la similitude au niveau lexical, morpho-syntaxique et lexico-sémantique du français de la période médiévale et, d'autre part, de celle que l'on constate sur le plan de la structure typographique et rhétorique des textes. Mots clés : alignement multicritères, versions parallèles d'écrits médiévaux, similitude linguistique, similitude structurelle Olivier Kraif "Méthodes de filtrage pour l'extraction d'un lexique bilingue à partir d'un corpus aligné", Abstract This paper addresses the problem of lexical aligning and correspondences extraction from multilingual aligned corpora. We first draw a line between lexical aligning, which concerns segments that are translational equivalents in a particular context, and lexical correspondences extraction, which aims at spotting lexical units that are equivalent at a general level, through their respective language. Then we explain the principle of common methods, that are based on distributional criteria. The results of our own experiments are presented, and we show that it is possible to automatically extract very reliable correspondences by applying an appropriate filter, without an important loss of recall. Keywords : lexical aligning, lexical correspondence, bilingual lexicon, bi-text Résumé Le présent article est centré sur les méthodes dédiées à l'extraction de correspondances lexicales à partir de corpus multilingues alignés. Après avoir établi une distinction entre l'alignement lexical, concernant des segments variables en relation d'équivalence traductionnelle, et l'extraction de correspondances lexicales limitée à des couples de lexies équivalentes au niveau des codes linguistiques, nous dégageons le principe des méthodes basées sur l'observation des occurrences et des cooccurrences des unités. Nous exposons ensuite les résultats de nos expérimentations, en montrant qu'il est possible d'extraire automatiquement des correspondances très fiables au moyen de filtrages adéquats, tout en limitant la dégradation du rappel. Mots clés : alignement lexical, correspondance lexicale, lexique bilingue, bi-texte Maria Zimina (CLA2T ILPGA, Université de la Sorbonne nouvelle - Paris 3 19, rue des Bernardins 75005 Paris zimina@msh-paris.fr) "Repérages lexicométriques des équivalences à basse fréquence dans les corpus bilingues", Abstract The approach suggested in this article enables statistic identification of low-frequency word correspondences of bilingual texts aligned on phrase level. Corresponding lexical units are discovered through characteristic element computation in parallel contexts. An extensive description of translation equivalence is obtained through the study of multiple co-occurrences. The calculation undergoes systematic reiteration in order to embrace the entire corpus. The exploratory results show that the use of quantitative methods in combination with a bilingual lexicon or a dictionary offers new prospects for improving automatic word alignment. Keywords : bilingual corpora, lexicometrics, translation equivalence Résumé Dans les corpus bilingues alignés au niveau de la phrase, le repérage des équivalences lexicales à faible fréquence peut être effectué sur des bases quantitatives. Basée sur la pratique du calcul des spécificités, notre méthode explore parallèlement les contextes équivalents pour repérer des correspondances dans les emplois caractéristiques des différents types d'unités textuelles. L'intégration du calcul des co-occurrences multiples permet d'affiner la description des unités lexicales complexes. La réitération systématique de ce processus dans le corpus, éventuellement appuyée sur l'utilisation d'un dictionnaire ou d'un lexique bilingue, offre de nouveaux moyens d'appariement des mots et des syntagmes. Mots clés : corpus bilingues, lexicométrie, équivalence de traduction
Mots-clés	alignement lexical, correspondance lexicale, lexique bilingue, bi-texte, alignement multicritères, versions parallèles d'écrits médiévaux, similitude linguistique, similitude structurelle, extraction de lexique bilingue, corpus comparable, thesaurus multilingue, corpus bilingues, lexicométrie, équivalence de traduction

LEXICOMETRICA (ISSN 1773-0570)
Coordinateurs de la rédaction : André Salem, Serge Fleury
Contacts: lexicometrica@univ-paris3.fr
ILPGA, 19 rue des Bernardins, 75005 Paris France

Lexicometrica Numéro spécial, 2002

Lexicometrica
Numéro spécial, 2002