Nouveautés
Appels à communication
Comités
JADT
Soumission
Articles
Thèmes
Archives
Carnet d'adresses
Index des auteurs
La page CORPORA
JADT (1998-2010) et GADT
La page des liens
Comptes-rendus d'ouvrages
La page Forum

Accueil Contact

Actes du colloque "L'analyse de données textuelles : De l'enquête aux corpus littéraires"
Numéro spécial, 2004

Ce numéro thématique regroupe des travaux issus d'un premier colloque exploratoire interdisciplinaire qui réunissait, en 2002, des chercheurs et des étudiants canadiens ayant en commun l'intérêt pour l'analyse de données textuelles, ainsi que des chercheurs invités appartenant au réseau européen des JADT. Ouverte à des disciplines aussi diverses que la littérature, la linguistique, les discours politiques, l'informatique et la musicologie, cette rencontre visait à faire le point sur un champ de recherche en émergence au Canada, notamment en ce qui a trait à l'utilisation des logiciels d'ADT, et à établir des liens avec le réseau international des JADT.
Nous remercions Patricia Balcom et Dominique Thomassin de l'Université de Moncton pour la révision et la mise en page des articles.

Responsables du numéro Sylvia Kasparian, James De Finney
Thème du numéro De l'enquête aux corpus littéraires
Sommaire de ce numéro

    Représentations et discours politiques

    Manon Laparra

      "Les représentations de La France dans les Conventions nationales Acadiennes : une analyse assistée par HYPERBASE " 

      Résumé

      Le présent article vise à rendre compte d'une recherche mythocritique effectuée à l'aide du logiciel de traitement de données HYPERBASE sur une partie du vaste corpus des Conventions Nationales Acadiennes, de 1881 à 1937. Il s'agit de déterminer comment est représentée la France à l'intérieur des discours et pourquoi ces images sont-elles si présentes au sein des conventions. Quel rôle jouent les références à la France à l'intérieur des grands discours nationalistes ? Les hypothèses de travail ainsi que leurs vérifications ont été accomplies grâce aux possibilités du logiciel, en exploitant les fonctions documentaires et statistiques

      Mots clés

      Conventions nationales acadiennes, France, Ancien Régime, représentation, sacré, mythe, origine, société, religion, éducation, langue française

      Abstract

      This article presents a mythocritical research project of some of the numerous speeches given at Acadian National Congresses (Conventions Nationales Acadiennes) from 1881 to 1937. The analyses was done using HYPERBASE software The goal is to understand how and why France is represented so frequently in the speeches and to determine the role these references play in nationalist Acadian discourse during the period. The hypotheses of the research were tested using the great possibilities of the HYPERBASE program, using both its statistical and documentary functions

      Keywords

      Acadian National Conventions, representation, France, Ancien Régime, myth, origins, society, religion, education, French language


    Chedly Belkhodja

      "Une rhétorique populiste de droite au sein d'un parti traditionnel : le cas du Parti conservateur au Nouveau-Brunswick (Canada) " 

      Résumé

      L'objectif de cet article est de mieux cerner la dimension populiste du discours politique que développe le Parti progressiste-conservateur du Nouveau-Brunswick (Canada) sous la direction de Bernard Lord. Dirigé par un jeune nouveau chef, ce parti se présente comme une force de changement devant le Parti libéral, usé par dix années passées au pouvoir. A partir d'une analyse lexicale documentaire, il s'agit de distinguer la spécificité du discours populiste des Progressistes-Conservateurs par rapport aux discours politiques des deux autres partis de la province, le Parti libéral et le Parti CoR

      Mots clés

      Populisme, proximité, populisme de droite, discours du trône, parti conservateur, parti libéral, CoR, Nouveau-Brunswick, discours politique, Bernard Lord, Hyperb

      Abstract

      The aim of this paper is to more clearly define the populist bias of the political discourse used by the Progressive Conservative Party of New Brunswick (Canada) under the leadership of Bernard Lord. Led by this young leader, the PC Party presents itself as a force for change against the Liberal Party, worn out after ten years in office. Using the documentary lexical analysis software tool HYPERBASE we attempt to determine the specificity of the Progressive Conservative populist discourse compared to the political discourse of two other New Brunswick political parties, the Liberal Party and the Confederation of Regions Party (CoR)

      Keywords

      Populism, proximity, populism of the right, Speech from the Trone, Conservative Party, Liberal Party, CoR, New Brunswick, political discourse, Bernard Lord, Hyperbase


    Louise Caissie et Sylvia Kasparian

      "Fêtes nationales, nationalisme et analyse textuelle " 

      Résumé

      Cet article présente les premiers résultats d’une recherche qui vise à explorer et décrire les communiqués de la Fête du Canada de premiers ministres du Canada et de premiers ministres du Nouveau-Brunswick. Cette recherche vise principalement à comprendre comment les mots et les énoncés des communiqués sont utilisés pour renforcer la notion de nationalisme, qui est inhérente à ce genre de document. La définition de nationalisme fournira le cadre de référence de la grille d’analyse, ce qui permettra de relever les mots du corpus qui font véhiculer d’autres concepts, comme l’unité et le sentiment national.

      Mots clés

      nationalisme, unité, communiqués, Fête du Canada, sentiment national.

      Abstract

      This article presents the preliminary results of research seeking to explore and describe press releases on the occasion of Canada Day by prime ministers of Canada and premiers of New Brunswick. The research aims to understand how the words and expressions of these press releases are used to reinforce the notion of nationalism inherent to this type of document. The definition of nationalism is the frame of reference used in order to extract key words which help to communicate other concepts such as unity and nationalist sentiments.


    Informatique, Linguistique et Système des signes

    Chantal Richard

      "Analyse des alternances de langues par le logiciel Sphinx: le cas du roman Volkswagen Blues de Jacques Poulin " 

      Résumé

      Cet objet d'étude visant à brouiller les frontières qu'est l'écriture hétérolingue nous a amené à adopter une démarche transdisciplinaire en combinant des notions linguistiques et littéraires avec l'analyse statistique par le logiciel Sphinx. Dans le but de décrire le fonctionnement des alternances de langues dans le roman, une typologie détaillée a été élaborée selon six variables. Cette typologie des formes et fonctions des alternances a servi à construire une grille d'analyse dans Eurêka qui nous a permis de coder chacune des 259 occurrences de L2 dans le texte. En tenant compte des liens possibles qui pourraient se manifester entre une forme et une fonction particulières, ces données ont par la suite été manipulées à l'aide de Sphinx dans le but d'arriver à une analyse multi-dimensionnelle des caractéristiques de l'anglais dans Volkswagen Blues

      Mots clés

      hétérolinguisme, bilinguisme, Sphinx, Eurêka, Volkswagen Blues, analyse de contenu, alternances de codes, langues

      Abstract

      Heterolingual writing is a technique which intentionally seeks to blur linguistic borders and is thus not an easy object to study. I have therefore adopted a transdisciplinary approach combining linguistic and literary notions with statistical analysis aided by the software program Sphinx. In the context of a descriptive study of language shifting in the modern novel, I propose a detailed typology of the forms and functions of heterolingual writing based on six main variables. This typology led to the creation of a coding grid in Euréka which allowed the detailed characterization of the 259 occurrences of L2 in the text. Keeping in mind the associations that may become apparent between individual forms and functions, this data was also manipulated using Sphinx in order to produce a multi-dimensional analysis of the role played by English as a second language in the novel Volkswagen Blues

      Keywords

      heterolingualism, bilingualism, Sphinx, Euréka, Volkswagen Blues, content analysis, code switching, languages


    Sylvia Kasparian et Aram Kerovpyan

      "Vers une théorie de la structure modale des Charakan, chants liturgiques arméniens " 

      Résumé

      Cet article se veut une étude originale d'application des méthodes d'analyse de données textuelles à des corpus musicaux. Aucune étude en musicologie moderne n'a encore décrit en détail l'oktoechos dans le répertoire des charakan, chants liturgiques arméniens. L'oktoechos est le système modal de la musique liturgique arménienne, système sur 8 dans lequel sont classés environ 20 modes musicaux. Dans cet article, nous présentons une première étape de la description de 6 versions différentes de 42 chants. Cela fait 728 versets, découpés en unités de phrases, formules, motifs, degrés, analysés avec le logiciel SPHINX. Notre analyse avec Sphinx permet une première étape d’analyse de la structure modale des Charakan, faisant ressortir les spécificités des différentes versions, des degrés, et des motifs propres aux différentes formules initiale, médiane et finale de ces chants. Elle permet aussi de relever les suites de formules caractéristiques des phrases des charakan ainsi que l’environnement créé par les différents intervalles qui constituent ce mode.

      Mots clés

      données musicales, chants modaux, statistique textuelle, charakan, chant liturgique arménien, oktoéchos, formules, motifs, degrés, intervalle, saut, corde, arrêt

      Abstract

      This article is an original study on the application of the methods of textual data analysis to a musical corpus. In modern musicology, the musical "oktoechos" of the "sharakan" repertoire of the Armenian liturgical chant has never been described in detail. The “oktoechos” is the modal system of the Armenian liturgical music, based on eight principal modes, within which approximately twenty musical modes are classified. In this article, we present the first stage of the description of six different versions of 42 chants. A total of 728 verses, divided into phrase units, are analysed with the SPHINX software program. Our analysis with Sphinx allows us to show the specificities of different versions and degrees, as well as proper motifs of initial, median and final formulae of different versions of these songs. The analysis also reveals characteristic formulae suits of "sharakan" phrases, and the environment created by different intervals which constitute this mode.

      Keywords

      musical data, modal chant, textual statistics, sharakan, Armenian liturgical chant, oktoechos, motifs, formulae, degrees, intervals


    France Martineau

      "Un corpus de textes français pour l'analyse de la variation diachronique et dialectale " 

      Résumé

      Notre article présente deux projets sur l'analyse de corpus français dans une perspective diachronique et dialectale. Le projet Chevalier au Lion, sur le site du LFA, a pour objet une présentation des différents manuscrits du Chevalier au Lion, avec des modules d'analyse (index, lexique, bases grammaticales). La Base d'analyse verbale qui a été constituée avec File Maker Pro et une interface Web s'avère un outil comparatif performant pour la morphologie ; toutefois, pour des interrogations contextuelles, SATO demeure un outil plus efficace. Le projet Microvariation et épistolarité en Nouvelle-France présente des textes en français familier des XVIIe, XVIIIe et XIXe siècles. Le problème de la lemmatisation automatique est rendu encore plus aigu par la graphie non standard ; nous développons un logiciel intégrant les stratégies d'écriture des illettrés

      Mots clés

      variation graphique, lemmatisation, FileMaker Pro, SATO, bases d'analyse verbale, français médiéval, français vernaculaire

      Abstract

      We discuss two projects dealing with the analysis of French texts from a diachronical and dialectal perspective. The project Chevalier au Lion (LFA) presents various manuscripts of Chevalier au Lion, with different modules for their analysis (indexes, lexicon, grammatical database). The Base d'analyse verbale, with a FileMaker Pro interface for the Web, is an efficient tool for morphologic analysis, but another program, SATO, is used to execute more complex syntactic and contextual tasks. The project Microvariation et épistolarité en Nouvelle-France presents a corpus of 17th, 18th and 19th century texts written in vernacular French. The results of automatic lemmatisation programs such as Tree Tagger are poor due to the high spelling variations. The solution considered is a program which recognizes writing strategies used by less educated people

      Keywords

      Filemaker Pro, SATO, medieval French, vernacular French


    Aline Chapados, Gisèle Chevalier et Sylvia Kasparian

      "Description de la morphosyntaxe du verbe aller dans le roman Pélagie-la-charrette d'Antonine Maillet, à l'aide du logiciel INTEX " 

      Résumé

      Les utilisations du verbe aller dans les français régionaux diffèrent de celles du français standard. Nous y retrouvons des contextes d'utilisation ainsi que des formes de verbe particulières. Ce projet vise deux objectifs : d'abord, dépouiller, par l'intermédiaire de l'outil informatique INTEX, les différents contextes morphosyntaxiques du verbe aller, dans le français acadien du Nouveau-Brunswick, et ensuite, intégrer ces résultats au logiciel sous la forme d'un dictionnaire, dans le cadre méthodologique développé au LADL par Maurice Gross. Ce travail se veut un premier pas vers la création d'un dictionnaire Intex du français acadien. Nous présenterons les formes graphiques du verbe aller que l'on retrouve dans les corpus oraux et écrits ainsi que les graphes construits dans Intex pour les décrire. Nous aborderons enfin le dictionnaire des expressions figées du verbe aller construit à partir de ces données

      Mots clés

      INTEX ; français acadien ; verbe aller ; expressions figées, lexique-grammaire

      Abstract

      The use of the verb "aller" ('to go') in regional french often differs from standard French, including different contexts of use and particular forms of the verb. Our project has two goals: first, to find the different morphosyntaxic contexts of the verb "aller" in Acadian French spoken in New Brunswick, using INTEX programs; second to integrate the results into software dictionaries following the methodological framework developed by Maurice Gross of the LADL. This work represents the first stage in a larger project to develop an electronic dictionary of Acadian French with INTEX. In this paper we will present the different graphic forms of the verb that were found in the oral and written corpora and also the graphs built for the description of the morphosyntax of the word. Finally we will present the dictionary of frozen expressions with the verb "aller" found in our corpora

      Keywords

      INTEX, Acadian French, the verb 'to go', frozen expressions, lexeme-grammar based syntax


    Anne Dister et Cedrick Fairon

      "Extention des ressources lexicales grâce à un corpus dynamique " 

      Résumé

      L'analyse automatique est régulièrement confrontée au problème trivial des mots inconnus, c'est-à-dire non reconnus par le système parce qu'ils n'apparaissent pas dans les dictionnaires de celui-ci. Cette catégorie de mots inconnus est hétérogène : mots mal orthographiés (coquilles ou fautes d'orthographe), néologismes, noms propres, etc. De plus, lorsque le logiciel de traitement automatique est conçu pour analyser des corpus du français de France, les particularités lexicales de textes suisses, sénégalais, belges ou encore québécois figurent elles aussi parmi les mots inconnus. Dans cet article qui se base sur l'analyse d'un corpus dynamique de presse québécois, nous présentons une manière simple, grâce au système GlossaNet, de repérer ces mots inconnus afin, s'il y a lieu, de les faire figurer dans un dictionnaire

      Mots clés

      corpus, corpus dynamique, traitement automatique des langues, Unitex, Glossanet, mot inconnu, néologisme, québécisme

      Abstract

      A common problem in automatic text analysis is that of unknown words: i.e. those which are not recognized by the system because they are not listed in its dictionaries. These words belong to various categories: misspellings, neologisms, proper names, etc. Moreover, it is often the case that the dictionaries of a given language do not include the lexical variants particular to the different regions of the world where that language is spoken. In this paper, we analyse a corpus of Québec newspapers and based on the use of GlossaNet we present a simple methodology for extracting unknown words and extending dictionaries

      Keywords

      corpus, dynamic corpus, natural language processing, neologisms, electronic dictionaries


    Mathieu Constant

      "Gestion d'une bibliothèque en-ligne de grammaires linguistiques " 

      Résumé

      Les grammaires locales sont un moyen simple et efficace de repérer et d'analyser des contraintes syntaxiques locales dans des textes. L'explosion de leur nombre et leur éparpillement géographique nous pousse à implanter un outil de gestion : une bibliothèque en-ligne de grammaires locales. Après avoir décrit leur formalisme, nous faisons un large état des lieux de l'utilisation des grammaires locales dans le cadre du réseau informel de laboratoires européens RELEX. Nous insistons principalement sur les travaux réalisés sur le français. Enfin, nous décrivons brièvement notre système de gestion de grammaires locales

      Mots clés

      grammaires locales ; lexique-grammaire ; traitement automatique des langues

      Abstract

      Local grammars efficiently recognize local syntactic constraints in texts. As their number is exploding and the places where they are stored are spread all over the world, we plan to build a system that manages an on-line library of local grammars. We describe their formalism and give an overview of where they are used within the informal European network of RELEX laboratories. Finally, we describe briefly the on-line library we have implemented

      Keywords

      lexicon-grammar; local grammars; natural language processing


    Plate-Forme SATIM

    Juan Manuel Torres, Patricia Velázquez-Morales, Jean-Guy Meunier

      "Condensés automatiques de textes " 

      Résumé

      L'obtention de résumés de textes constitue une phase critique dans l'analyse automatique de textes. La génération de résumes étant un processus cognitif difficile, l'état de l'art ne permet d'obtenir que des condensés des documents. Cet article décrit notre méthode Cortex, basé sur une approche numérique algorithmique, pour l'obtention d'un condensé d'un texte. Le condensé ainsi obtenu est indépendant du thème et de l'ampleur du corpus. Le système trouve en plus, des condensés de textes en français ou espagnol très rapidement

      Mots clés

      Condensés de textes, résumés automatiques, analyse de textes, méthodes statistiques

      Abstract

      Summarizing is a critical phase in the automatic analysis of texts. Abstract generation is a complex cognitive process. The state of art only allows the production of document condensations. This paper describes our method, Cortex, which uses an algorithmic-numerical approach to obtain a text abstract. The final condensation is independent of the subject and the size of the corpus. Cortex offers the added capability of producing condensations in French or Spanish in a short period of time

      Keywords

      Text condensation, automatic summarizing, text analysis, statistical methods


    Denis Gagnon

      "NUMEXO et l'analyse par attracteurs et par classes des entrées de l'ECHO (Encyclopédie Culturelle hypermedia de l'Océanie) " 

      Résumé

      Cet article présente deux méthodes originales d'analyse de données textuelles assistée par ordinateur : l'analyse par attracteurs et par classes. Le corpus traité se compose de données ethnographiques en langue française qui sont à la base des entrées de l'Encyclopédie Culturelle Hypermédia de l'Océanie. Le but de l'expérimentation consiste à comparer le bassin d'attraction et les graphes du réseau sémantique de l'attracteur "Kava" obtenus par deux autres chercheurs suite à une analyse de contenu traditionnelle, à ceux obtenus "à l'aveugle" par Numexco, un logiciel de la plate-forme SATIM développée par le LANCI-UQAM qui permet d'appliquer une méthode connexionniste au problème de l'extraction de connaissances à partir de textes numérisés

      Mots clés

      Analyse de données textuelles, logiciels d'analyse de textes, connexionnisme, méthode d'analyse, anthropologie culturelle

      Abstract

      This paper presents two original methods of textual processing analysis: analysis by attractor and by class. The corpus processed is composed of ethnographic data in French found in the Cultural Hypermedia Encyclopedia of Oceania. The goal of this data processing is to compare the pool of attraction and graphs of the semantic network of the attractor "Kava", which was developed by two researchers on the basis of traditional content analysis, with the pool of attraction and graphs developped by Numexco. Numexco, which was developed by LANCI-UQAM, is a software program of the SATIM plateform, by which one can conduct connectionist analyses and extract knowledge from digitized texts

      Keywords

      Textual analysis, software textual analysis, connectionism, analysis methodology, cultural anthropology


    Simon Lemieux

      "Utilisation de Numexco pour le repérage de termes-clés dans le domaine des télécommunications sans fil entre ordinateurs " 

      Résumé

      Cet article traite des deux premières séries de tests qui ont été effectués sur le corpus utilisé dans le cadre du projet GDST (Gestion et Diffusion du Savoir en Télécommunications) par le biais de la chaîne de traitement Numexco du laboratoire Lanci de l'Université du Québec à Montréal. Le but de ces tests était d'en arriver à repérer les termes-clés propres à ce domaine ainsi que les potentielles relations présentes entre eux, et ce, afin de fournir une assistance informatique à la construction de l'ontologie de ce même domaine, cette ontologie étant en fait la visée finale du projet GDST. En plus d'avoir permis le repérage de bon nombre de termes et de relations, ces deux séries nous ont permis de prendre conscience des facteurs qui perturbent la classification de Numexco, ce qui ne pourra être que bénéfique lors des autres tests qui seront éventuellement faits sur ce corpus

      Mots clés

      gestion documentaire, classification documentaire, identification de termes-clés, ommunications sans fil entre ordinateurs

      Abstract

      This article deals with the first two series of tests that have been done on the corpus used for the GDST Project (Gestion et Diffusion du Savoir en Télécommunication) with the classification system Numexco created by the Lanci Laboratory (UQAM - Université du Québec à Montréal). The aim of the tests was to identify the key terms in the domain of wireless communication between computers and the potential relations between these terms. Based on these two tasks, another aim is to give computer assistance to the ontology building of the domain, the ontology itself being the final goal of the GDST Project. In addition to the fact that they have permitted the identification of some key terms and relations, these two tests have allowed us to discover the factors that can disrupt Numexco classification, factors that will as a result be handled more easily during forthcoming tests on the same corpus

      Keywords

      document management, document classification, key-term identification, wireless communication between computers


    Question de méthode

    Céline Desmarais et Jean Moscarola

      "Analyse de contenu et analyse lexicale, le cas d'une étude en management public " 

      Résumé

      Les outils de traitement informatisés des données textuelles ouvrent de nouvelles perspectives pour les méthodes d'analyse des données qualitatives. Cependant l'utilisation de ces outils n'est guère stabilisée et leur validité pose question. Comment s'y prendre pour en tirer une connaissance, et comment garantir à celle-ci une légitimité scientifique ? Quelles méthodes privilégier parmi l'arsenal dont le chercheur dispose désormais ? Pour apporter des réponses à cet ensemble de questions, cet article analyse un processus de recherche ayant eu pour objectif d'appréhender l'évolution des rôles de l'encadrement des villes, en contexte de modernisation. Il expose plus particulièrement deux méthodes : l'analyse de contenu et l'analyse lexicale, dont les potentialités et la complémentarité sont développées

      Mots clés

      Analyse de contenu, analyse lexicale, administration publique

      Abstract

      Lexical statistics and textual data analysis open new opportunities for content analysis. However, the use of these tools also raises questions. How should they be used and how can they be given scientific legitimacy? Which methods and which research strategies should be privileged? In order to answer these questions, this article discusses a research project in public management based on interviews with municipal workers and elected representatives. This example is used to demonstrate how lexical analysis and content analysis can be combined, and to what extent each methodology brings specific insights to the corpus

      Keywords

      Content analysis, Lexical analysis, Public administration


Mots-clés populisme, proximité, populisme de droite, discours du trône, parti conservateur, parti libéral, cor, nouveau-brunswick, discours politique, bernard lord, hyperbase, intex, français acadien, verbe aller, expressions figées, lexique-grammaire, grammaires locales, lexique-grammaire, traitement automatique des langues, corpus, corpus dynamique, traitement automatique des langues, unitex, glossanet, mot inconnu, néologisme, québécisme, analyse de données textuelles, logiciels d'analyse de textes, connexionnisme, méthode d'analyse, anthropologie culturelle, conventions nationales acadiennes, france, ancien régime, représentation, sacré, mythe, origine, société, religion, éducation, langue française, gestion documentaire, classification documentaire, identification de termes-clés, communications sans fil entre ordinateurs, variation graphique, lemmatisation, filemaker pro, sato, bases d'analyse verbale, français médiéval, français vernaculaire, analyse de contenu, analyse lexicale, administration publique, hétérolinguisme, bilinguisme, sphinx, eurêka, volkswagen blues, analyse de contenu, alternances de codes, langues, condensés de textes, résumés automatiques, analyse de textes, méthodes statistiques, données musicales, chants modaux, statistique textuelle, charakan, chant liturgique arménien, oktoéchos, formules, motifs, degrés, intervalle, saut, corde, arrêt


LEXICOMETRICA (ISSN 1773-0570)
Coordinateurs de la rédaction : André Salem, Serge Fleury
Contacts:  lexicometrica@univ-paris3.fr
ILPGA, 19 rue des Bernardins, 75005 Paris France