Nous avons rassemblé plusieurs compte-rendus d'expériences réalisées avec les logiciels de la famille Lexico au cours de nombreuses recherches et dans le cadre de collaborations diverses. Les navigations rassemblées ici ont été choisies pour mettre en évidence la très vaste gamme des domaines d'application des méthodes textométriques ainsi que les fonctionnalités des logiciels Lexico3 et mkAlign. Elles sont publiées sous la forme de trois volumes (volume 1 : corpus et problèmes, volume 2 : séries textuelles chronologiques, volume 3 : corpus multilingues).
Fonctionnalités Lexico3 utilisées dans les navigations présentées infra
Volume 1 : corpus et problèmes
A. Salem
Tutoriel n°1 : Exploration du corpus Père Duchesne
Résumé
Le Tutoriel n°1, Exploration du corpus Père Duchesne, devrait permettre à l'utilisateur de se familiariser avec les notions de ressources numériques textuelles, de corpus textométriques, de dépouillement d'un corpus en unités textuelles, de partition d'un corpus textométrique et d'acquérir quelques notions sur les principales méthodes textométriques qui permettent d'explorer ces corpus de textes.
E. Nee
Insécurité et élections présidentielles dans le journal Le Monde
Résumé
Comment interpréter les fréquences de la forme insécurité dans le journal Le Monde pendant la campagne pour les élections présidentielles en 2001-2002 ? Plusieurs expériences vont permettre de discriminer certaines interprétations et de repérer un phénomène discursif.
C. Pineira-Tresmontant, A. Salem
Discours royal espagnol
Résumé
La courbe d’accroissement du vocabulaire calculée à partir d’une série de 25 allocutions adressées aux forces armées par le roi d’Espagne, (corpus Pascua 1976-2000) révèle un très faible accroissement pour l’allocution de 1993. Une suite d’opérations textométriques permet de comprendre la raison de cette anomalie. On en déduit une méthode pour repérer les passages à fort taux de répétition dans les séries textuelles du même type.
Liangcai Shen, André Salem
Qu'en pensent les Chinois ? Essai d'exploration de l'opinion publique chinoise à travers des documents disponibles sur la toile.
Résumé
Les nombreux moyens d'expressions liés aux technologies du web deviennent chaque jour plus accessibles aux citoyens chinois désireux d'exprimer leurs réactions à propos de sujets d'actualité. A propos d'un incident médiatique entraîné par les propos d'une célèbre actrice américaine, après une catastrophe naturelle survenue en Chine, nous avons cherché à mettre à jour quelques-unes des dimensions de la réaction suscitée par ces propos dans l'opinion publique chinoise. Pour cette première étude, nous avons choisi de comparer quelques échantillons de textes publiés sur la toile par la presse officielle, des textes relevés sur des blogs personnels et des interventions collectées sur des forums publics. Cette première démarche, aux dimensions modestes, illustre la possibilité et l'intérêt du type d'enquête proposé.
F. Abbassi
Discours théorique et discours d'action. Approche textométrique de l'évolution de groupements islamistes
Résumé
La comparaison de textes produits par différents groupes islamistes de tendance djihadite permet de mettre en évidence des évolutions dans l'utilisation du vocabulaire. Ces évolutions quantitatives, et leur remise systématique en contexte, permettent de mieux cerner une évolution de l'idéologie et des buts affichés, à long et à court terme, par les différents acteurs.
P. Couton-Wyporek
Blogs & environnement
Résumé
L'exploration textométrique d'un corpus de blogs qui abordent sur le web la question environnementale permet d'extraire une série de notions clefs du domaine et de cerner leurs usages respectifs parmi les différentes sources qui participent au débat sur ce thème. On étudie ensuite les variations dans l'emploi de ces notions au cours du temps.
L. Sansonetti
Interactions adulte/enfant
Résumé
L'apprentissage de la langue maternelle chez l'enfant en situation dialogique avec un adulte montre à quel point l'enfant est réceptif et réactif à l'apprentissage dans le cadre de dialogues. Comment l'adulte réagit-il dans cette même situation ? L'exploration textométrique du corpus permet de repérer et de confronter les reprises et les reformulations chez les deux locuteurs. Elle permet d'observer la reprise par l'enfant des productions de l'adulte, et d'étudier la manière dont l'adulte corrige les créations enfantines.
M. Leenhardt
Interactions homme-machine
Résumé
On utilise la textométrie pour comparer les productions d'intervenants en situation de demande de renseignement dans un contexte industriel. Des traitements adaptés à ces comparaisons mettent en évidence différentes conduites interactionnelles dans les échanges entre humains, d'une part, entre humains confrontés à une machine, d'autre part. Après une présentation du corpus et des codages indispensables à sa prise en charge (§2), une série d'analyses quantitatives permettent de dégager des caractéristiques propres aux différents types d'intervenants (§3), puis de proposer, sur cette base, une typologie conversationnelle des interactions (§4). Ces analyses nous amènent (§5) à discuter la question de l'ajustement conversationnel chez l'humain en situation de demande d'information.
A. Salem, Romuald Schummer
Textométrie hiéroglyphique
Résumé
A partir d'un texte hiéroglyphique et de ses translittérations sur un support informatisé, les méthodes textométriques permettent d'explorer directement des récurrences textuelles contenues dans le corpus. Le repérage de séquences répétées dans le texte original ouvre une voie textométrique à l'étude des procédés narratifs à l'œuvre dans le récit. La constitution d'un bitexte constitué du texte original et de sa traduction française alignée au niveau du verset permet d'étudier l'activité de traduction réalisée à partir des textes originaux.
Volume 2 : séries textuelles chronologiques
A. Salem
Tutoriel n°2 : Séries textuelles chronologiques
Résumé
Le Tutoriel n°2, Séries textuelles chronologiques, est consacré à l'étude d'un type de corpus particulier que l'on rencontre très souvent dans le domaine textométrique, qui est celui des corpus rassemblant une série de textes produits au cours du temps par un même émetteur. L'étude de ces corpus obéit à des règles particulières que l'on s'est efforcé de décrire dans ce tutoriel.
J-M. Leblanc
Vœux présidentiels
Résumé
Un corpus de vœux présentés français à l'occasion de la nouvelle année par les différents présidents de la cinquième république permet d'étudier les évolutions lexicales survenues dans ce type d'intervention au cours des quarante dernières années. On esquisse ensuite une étude de l'énonciation de chacun des locuteurs notamment du point de vue de l'emploi des pronoms personnels.
A. Salem, Li-Chi Wu
Essai de textométrie politique chinoise. Les congrès du Parti Communiste Chinois (1921-2007)
Résumé
L'analyse textométrique d'une série de discours prononcés par les principaux dirigeants du Parti communiste chinois, à l'occasion des congrès survenus depuis sa création, permet d'étudier l'évolution du vocabulaire employé au cours de son histoire. Des typologies d'ensemble permettent de vérifier le caractère progressif de cette évolution. L'analyse des spécificités majeures pour chacune des périodes permet d'en dégager le vocabulaire caractéristique. L'analyse des chroniques spécifiques permet de localiser des moments importants de l'évolution autour desquels on peut ensuite organiser avec précision le retour au contexte. Les mêmes méthodes appliquées à l'étude d'une série plus restreinte (1982-2007) permettent de décrire plus précisément les évolutions survenues dans la dernière période.
Volume 3 : corpus multilingues
S. Fleury
Tutoriel n°3 : Exploration du corpus Traductions alignées du discours d'investiture de B. Obama
Résumé
Le Tutoriel n°3, Investiture Obama, est consacré à l'étude d'un corpus aligné avec mkAlign.
M. Zimina
Equivalences traductionnelles (mise à jour 2013)
Résumé
CONVENTION est un bi-texte juridique français/anglais aligné jusqu’au niveau de la phrase à l’aide du logiciel textométrique mkAlign (§1). Les Types bilingues français/anglais administr+/administ+ sont appariés en raison de leur parenté sémantique dans le corpus. Dans le bi-texte découpé en sections, leurs distributions présentent des divergences. Une suite d’opérations textométriques permet de cerner les causes de ces discordances. On découvre deux phénomènes sensiblement différents : 1) les asymétries sont dues au décalage dans l’alignement des sections ; 2) il existe des contextes originaux où les mots français commençant par administr+ (administration, administrer, etc.) ne sont pas en équivalence avec des mots anglais commençant par administ+ (administration, administering, etc.) et réciproquement (§2). On en déduit deux méthodes de travail sur corpus parallèles : 1) une méthode de synchronisation d’alignement phrastique à l’aide de la carte des sections bi-textuelle ; 2) une méthode d’exploration bi-textuelle permettant le repérage de passages originaux où sont attestées des équivalences traductionnelles peu communes (§3).
J. Miao, A. Salem
Comparaisons textométriques de traductions franco-chinoises
Résumé
Après un bref rappel sur le système d'écriture chinoise et ses prises en charge par différents systèmes de codage informatique (§3), on compare les dépouillements textométriques d'un texte français et d'une de ses traductions chinoises. Après le dépouillement du texte chinois en caractères isolés (§4), on compare un dépouillement automatisé en mots de ce même texte avec le texte français original (§5). La dernière section est consacrée à l'étude des perspectives ouvertes par la démarche textométrique pour l'analyse des différentes traductions chinoises utilisées pour rendre un même mot français (§6).
Mots clés : textométrie; caractères chinois (hanzi); littérature; traductologie
J-H. Cho
Traductions franco-coréennes
Résumé
L'approche quantitative nous permet d'explorer la ventilation des mots en correspondance de traduction à partir d'une segmentation des séquences textuelles dans le corpus. Avec cette méthode, nous pouvons directement comparer des mots contenus dans le corpus parallèle en langues sans parenté, bien que celles-ci n'aient aucune structure syntaxique en commun. Dans le présent article, nous présenterons comment cette méthode est applicable aux corpus parallèle en langues hétérogènes à travers l'analyse textométrique d'un couple de mots traductionnel français/coréen dans un corpus parallèle coréen-français.
Mots clés : corpus bilingues, coréen, traductologie, textométrie
Christian Jean
Le thaï. De la segmentation aux maux
Résumé
Le thaï ou siamois est une des langues d'Asie-du-Sud-Est à écriture non segmentée dérivée de la dévanagari indienne.
LEXICOMETRICA (ISSN 1773-0570)
Coordinateurs de la rédaction : André Salem, Serge Fleury
Contacts:
lexicometrica@univ-paris3.fr
ILPGA, 19 rue des Bernardins, 75005 Paris France