|
|
|
Actes du colloque "L'analyse de données textuelles : De l'enquête aux corpus littéraires"
Numéro spécial, 2004
|
Ce numéro thématique regroupe des travaux issus d'un premier colloque exploratoire interdisciplinaire qui réunissait, en 2002, des chercheurs et des étudiants canadiens ayant en commun l'intérêt pour l'analyse de données textuelles, ainsi que des chercheurs invités appartenant au réseau européen des JADT. Ouverte à des disciplines aussi diverses que la littérature, la linguistique, les discours politiques, l'informatique et la musicologie, cette rencontre visait à faire le point sur un champ de recherche en émergence au Canada, notamment en ce qui a trait à l'utilisation des logiciels d'ADT, et à établir des liens avec le réseau international des JADT.
Nous remercions Patricia Balcom et Dominique Thomassin de l'Université de Moncton pour la révision et la mise en page des articles.
|
Responsables
du numéro |
Sylvia Kasparian, James De Finney |
Thème
du numéro |
De l'enquête aux corpus littéraires |
Sommaire
de ce numéro
|
Représentations et discours politiques
Manon Laparra
"Les représentations de La France dans les Conventions nationales Acadiennes : une analyse assistée par HYPERBASE "
Résumé
Le présent article vise à rendre compte d'une recherche mythocritique effectuée à l'aide du logiciel de traitement de données HYPERBASE sur une partie du vaste corpus des Conventions Nationales Acadiennes, de 1881 à 1937. Il s'agit de déterminer comment est représentée la France à l'intérieur des discours et pourquoi ces images sont-elles si présentes au sein des conventions. Quel rôle jouent les références à la France à l'intérieur des grands discours nationalistes ? Les hypothèses de travail ainsi que leurs vérifications ont été accomplies grâce aux possibilités du logiciel, en exploitant les fonctions documentaires et statistiques
Mots clés
Conventions nationales acadiennes, France, Ancien Régime, représentation, sacré, mythe, origine, société, religion, éducation, langue française
Abstract
This article presents a mythocritical research project of some of the numerous speeches given at Acadian National Congresses (Conventions Nationales Acadiennes) from 1881 to 1937. The analyses was done using HYPERBASE software The goal is to understand how and why France is represented so frequently in the speeches and to determine the role these references play in nationalist Acadian discourse during the period.
The hypotheses of the research were tested using the great possibilities of the HYPERBASE program, using both its statistical and documentary functions
Keywords
Acadian National Conventions, representation, France, Ancien Régime, myth, origins, society, religion, education, French language
Chedly Belkhodja
"Une rhétorique populiste de droite au sein d'un parti traditionnel : le cas du Parti conservateur au Nouveau-Brunswick (Canada) "
Résumé
L'objectif de cet article est de mieux cerner la dimension populiste du discours politique que développe le Parti progressiste-conservateur du Nouveau-Brunswick (Canada) sous la direction de Bernard Lord. Dirigé par un jeune nouveau chef, ce parti se présente comme une force de changement devant le Parti libéral, usé par dix années passées au pouvoir. A partir d'une analyse lexicale documentaire, il s'agit de distinguer la spécificité du discours populiste des Progressistes-Conservateurs par rapport aux discours politiques des deux autres partis de la province, le Parti libéral et le Parti CoR
Mots clés
Populisme, proximité, populisme de droite, discours du trône, parti conservateur, parti libéral, CoR, Nouveau-Brunswick, discours politique, Bernard Lord, Hyperb
Abstract
The aim of this paper is to more clearly define the populist bias of the political discourse used by the Progressive Conservative Party of New Brunswick (Canada) under the leadership of Bernard Lord. Led by this young leader, the PC Party presents itself as a force for change against the Liberal Party, worn out after ten years in office. Using the documentary lexical analysis software tool HYPERBASE we attempt to determine the specificity of the Progressive Conservative populist discourse compared to the political discourse of two other New Brunswick political parties, the Liberal Party and the Confederation of Regions Party (CoR)
Keywords
Populism, proximity, populism of the right, Speech from the Trone, Conservative Party, Liberal Party, CoR, New Brunswick, political discourse, Bernard Lord, Hyperbase
Louise Caissie et Sylvia Kasparian
"Fêtes nationales, nationalisme et analyse textuelle "
Résumé
Cet article présente les premiers résultats d’une recherche qui vise à explorer et décrire les communiqués de la Fête du Canada de premiers ministres du Canada et de premiers ministres du Nouveau-Brunswick. Cette recherche vise principalement à comprendre comment les mots et les énoncés des communiqués sont utilisés pour renforcer la notion de nationalisme, qui est inhérente à ce genre de document. La définition de nationalisme fournira le cadre de référence de la grille d’analyse, ce qui permettra de relever les mots du corpus qui font véhiculer d’autres concepts, comme l’unité et le sentiment national.
Mots clés
nationalisme, unité, communiqués, Fête du Canada, sentiment national.
Abstract
This article presents the preliminary results of research seeking to explore and describe press releases on the occasion of Canada Day by prime ministers of Canada and premiers of New Brunswick. The research aims to understand how the words and expressions of these press releases are used to reinforce the notion of nationalism inherent to this type of document. The definition of nationalism is the frame of reference used in order to extract key words which help to communicate other concepts such as unity and nationalist sentiments.
Informatique, Linguistique et Système des signes
Chantal Richard
"Analyse des alternances de langues par le logiciel Sphinx: le cas du roman Volkswagen Blues de Jacques Poulin "
Résumé
Cet objet d'étude visant à brouiller les frontières qu'est l'écriture hétérolingue nous a amené à adopter une démarche transdisciplinaire en combinant des notions linguistiques et littéraires avec l'analyse statistique par le logiciel Sphinx. Dans le but de décrire le fonctionnement des alternances de langues dans le roman, une typologie détaillée a été élaborée selon six variables. Cette typologie des formes et fonctions des alternances a servi à construire une grille d'analyse dans Eurêka qui nous a permis de coder chacune des 259 occurrences de L2 dans le texte. En tenant compte des liens possibles qui pourraient se manifester entre une forme et une fonction particulières, ces données ont par la suite été manipulées à l'aide de Sphinx dans le but d'arriver à une analyse multi-dimensionnelle des caractéristiques de l'anglais dans Volkswagen Blues
Mots clés
hétérolinguisme, bilinguisme, Sphinx, Eurêka, Volkswagen Blues, analyse de contenu, alternances de codes, langues
Abstract
Heterolingual writing is a technique which intentionally seeks to blur linguistic borders and is thus not an easy object to study. I have therefore adopted a transdisciplinary approach combining linguistic and literary notions with statistical analysis aided by the software program Sphinx. In the context of a descriptive study of language shifting in the modern novel, I propose a detailed typology of the forms and functions of heterolingual writing based on six main variables. This typology led to the creation of a coding grid in Euréka which allowed the detailed characterization of the 259 occurrences of L2 in the text. Keeping in mind the associations that may become apparent between individual forms and functions, this data was also manipulated using Sphinx in order to produce a multi-dimensional analysis of the role played by English as a second language in the novel Volkswagen Blues
Keywords
heterolingualism, bilingualism, Sphinx, Euréka, Volkswagen Blues, content analysis, code switching, languages
Sylvia Kasparian et Aram Kerovpyan
"Vers une théorie de la structure modale des Charakan, chants liturgiques arméniens "
Résumé
Cet article se veut une étude originale d'application des méthodes d'analyse de données textuelles à des corpus musicaux. Aucune étude en musicologie moderne n'a encore décrit en détail l'oktoechos dans le répertoire des charakan, chants liturgiques arméniens. L'oktoechos est le système modal de la musique liturgique arménienne, système sur 8 dans lequel sont classés environ 20 modes musicaux. Dans cet article, nous présentons une première étape de la description de 6 versions différentes de 42 chants. Cela fait 728 versets, découpés en unités de phrases, formules, motifs, degrés, analysés avec le logiciel SPHINX. Notre analyse avec Sphinx permet une première étape d’analyse de la structure modale des Charakan, faisant ressortir les spécificités des différentes versions, des degrés, et des motifs propres aux différentes formules initiale, médiane et finale de ces chants. Elle permet aussi de relever les suites de formules caractéristiques des phrases des charakan ainsi que l’environnement créé par les différents intervalles qui constituent ce mode.
Mots clés
données musicales, chants modaux, statistique textuelle, charakan, chant liturgique arménien, oktoéchos, formules, motifs, degrés, intervalle, saut, corde, arrêt
Abstract
This article is an original study on the application of the methods of textual data analysis to a musical corpus. In modern musicology, the musical "oktoechos" of the "sharakan" repertoire of the Armenian liturgical chant has never been described in detail. The “oktoechos” is the modal system of the Armenian liturgical music, based on eight principal modes, within which approximately twenty musical modes are classified. In this article, we present the first stage of the description of six different versions of 42 chants. A total of 728 verses, divided into phrase units, are analysed with the SPHINX software program. Our analysis with Sphinx allows us to show the specificities of different versions and degrees, as well as proper motifs of initial, median and final formulae of different versions of these songs. The analysis also reveals characteristic formulae suits of "sharakan" phrases, and the environment created by different intervals which constitute this mode.
Keywords
musical data, modal chant, textual statistics, sharakan, Armenian liturgical chant, oktoechos, motifs, formulae, degrees, intervals
France Martineau
"Un corpus de textes français pour l'analyse de la variation diachronique et dialectale "
Résumé
Notre article présente deux projets sur l'analyse de corpus français dans une perspective diachronique et dialectale. Le projet Chevalier au Lion, sur le site du LFA, a pour objet une présentation des différents manuscrits du Chevalier au Lion, avec des modules d'analyse (index, lexique, bases grammaticales). La Base d'analyse verbale qui a été constituée avec File Maker Pro et une interface Web s'avère un outil comparatif performant pour la morphologie ; toutefois, pour des interrogations contextuelles, SATO demeure un outil plus efficace. Le projet Microvariation et épistolarité en Nouvelle-France présente des textes en français familier des XVIIe, XVIIIe et XIXe siècles. Le problème de la lemmatisation automatique est rendu encore plus aigu par la graphie non standard ; nous développons un logiciel intégrant les stratégies d'écriture des illettrés
Mots clés
variation graphique, lemmatisation, FileMaker Pro, SATO, bases d'analyse verbale, français médiéval, français vernaculaire
Abstract
We discuss two projects dealing with the analysis of French texts from a diachronical and dialectal perspective. The project Chevalier au Lion (LFA) presents various manuscripts of Chevalier au Lion, with different modules for their analysis (indexes, lexicon, grammatical database). The Base d'analyse verbale, with a FileMaker Pro interface for the Web, is an efficient tool for morphologic analysis, but another program, SATO, is used to execute more complex syntactic and contextual tasks. The project Microvariation et épistolarité en Nouvelle-France presents a corpus of 17th, 18th and 19th century texts written in vernacular French. The results of automatic lemmatisation programs such as Tree Tagger are poor due to the high spelling variations. The solution considered is a program which recognizes writing strategies used by less educated people
Keywords
Filemaker Pro, SATO, medieval French, vernacular French
Aline Chapados, Gisèle Chevalier et Sylvia Kasparian
"Description de la morphosyntaxe du verbe aller dans le roman Pélagie-la-charrette d'Antonine Maillet, à l'aide du logiciel INTEX "
Résumé
Les utilisations du verbe aller dans les français régionaux diffèrent de celles du français standard. Nous y retrouvons des contextes d'utilisation ainsi que des formes de verbe particulières. Ce projet vise deux objectifs : d'abord, dépouiller, par l'intermédiaire de l'outil informatique INTEX, les différents contextes morphosyntaxiques du verbe aller, dans le français acadien du Nouveau-Brunswick, et ensuite, intégrer ces résultats au logiciel sous la forme d'un dictionnaire, dans le cadre méthodologique développé au LADL par Maurice Gross. Ce travail se veut un premier pas vers la création d'un dictionnaire Intex du français acadien. Nous présenterons les formes graphiques du verbe aller que l'on retrouve dans les corpus oraux et écrits ainsi que les graphes construits dans Intex pour les décrire. Nous aborderons enfin le dictionnaire des expressions figées du verbe aller construit à partir de ces données
Mots clés
INTEX ; français acadien ; verbe aller ; expressions figées, lexique-grammaire
Abstract
The use of the verb "aller" ('to go') in regional french often differs from standard French, including different contexts of use and particular forms of the verb. Our project has two goals: first, to find the different morphosyntaxic contexts of the verb "aller" in Acadian French spoken in New Brunswick, using INTEX programs; second to integrate the results into software dictionaries following the methodological framework developed by Maurice Gross of the LADL. This work represents the first stage in a larger project to develop an electronic dictionary of Acadian French with INTEX. In this paper we will present the different graphic forms of the verb that were found in the oral and written corpora and also the graphs built for the description of the morphosyntax of the word. Finally we will present the dictionary of frozen expressions with the verb "aller" found in our corpora
Keywords
INTEX, Acadian French, the verb 'to go', frozen expressions, lexeme-grammar based syntax
Anne Dister et Cedrick Fairon
"Extention des ressources lexicales grâce à un corpus dynamique "
Résumé
L'analyse automatique est régulièrement confrontée au problème trivial des mots inconnus, c'est-à-dire non reconnus par le système parce qu'ils n'apparaissent pas dans les dictionnaires de celui-ci. Cette catégorie de mots inconnus est hétérogène : mots mal orthographiés (coquilles ou fautes d'orthographe), néologismes, noms propres, etc. De plus, lorsque le logiciel de traitement automatique est conçu pour analyser des corpus du français de France, les particularités lexicales de textes suisses, sénégalais, belges ou encore québécois figurent elles aussi parmi les mots inconnus.
Dans cet article qui se base sur l'analyse d'un corpus dynamique de presse québécois, nous présentons une manière simple, grâce au système GlossaNet, de repérer ces mots inconnus afin, s'il y a lieu, de les faire figurer dans un dictionnaire
Mots clés
corpus, corpus dynamique, traitement automatique des langues, Unitex, Glossanet, mot inconnu, néologisme, québécisme
Abstract
A common problem in automatic text analysis is that of unknown words: i.e. those which are not recognized by the system because they are not listed in its dictionaries. These words belong to various categories: misspellings, neologisms, proper names, etc. Moreover, it is often the case that the dictionaries of a given language do not include the lexical variants particular to the different regions of the world where that language is spoken.
In this paper, we analyse a corpus of Québec newspapers and based on the use of GlossaNet we present a simple methodology for extracting unknown words and extending dictionaries
Keywords
corpus, dynamic corpus, natural language processing, neologisms, electronic dictionaries
Mathieu Constant
"Gestion d'une bibliothèque en-ligne de grammaires linguistiques "
Résumé
Les grammaires locales sont un moyen simple et efficace de repérer et d'analyser des contraintes syntaxiques locales dans des textes. L'explosion de leur nombre et leur éparpillement géographique nous pousse à implanter un outil de gestion : une bibliothèque en-ligne de grammaires locales. Après avoir décrit leur formalisme, nous faisons un large état des lieux de l'utilisation des grammaires locales dans le cadre du réseau informel de laboratoires européens RELEX. Nous insistons principalement sur les travaux réalisés sur le français. Enfin, nous décrivons brièvement notre système de gestion de grammaires locales
Mots clés
grammaires locales ; lexique-grammaire ; traitement automatique des langues
Abstract
Local grammars efficiently recognize local syntactic constraints in texts. As their number is exploding and the places where they are stored are spread all over the world, we plan to build a system that manages an on-line library of local grammars. We describe their formalism and give an overview of where they are used within the informal European network of RELEX laboratories. Finally, we describe briefly the on-line library we have implemented
Keywords
lexicon-grammar; local grammars; natural language processing
Plate-Forme SATIM
Juan Manuel Torres, Patricia Velázquez-Morales, Jean-Guy Meunier
"Condensés automatiques de textes "
Résumé
L'obtention de résumés de textes constitue une phase critique dans l'analyse automatique de textes. La génération de résumes étant un processus cognitif difficile, l'état de l'art ne permet d'obtenir que des condensés des documents. Cet article décrit notre méthode Cortex, basé sur une approche numérique algorithmique, pour l'obtention d'un condensé d'un texte. Le condensé ainsi obtenu est indépendant du thème et de l'ampleur du corpus. Le système trouve en plus, des condensés de textes en français ou espagnol très rapidement
Mots clés
Condensés de textes, résumés automatiques, analyse de textes, méthodes statistiques
Abstract
Summarizing is a critical phase in the automatic analysis of texts. Abstract generation is a complex cognitive process. The state of art only allows the production of document condensations. This paper describes our method, Cortex, which uses an algorithmic-numerical approach to obtain a text abstract. The final condensation is independent of the subject and the size of the corpus. Cortex offers the added capability of producing condensations in French or Spanish in a short period of time
Keywords
Text condensation, automatic summarizing, text analysis, statistical methods
Denis Gagnon
"NUMEXO et l'analyse par attracteurs et par classes des entrées de l'ECHO (Encyclopédie Culturelle hypermedia de l'Océanie) "
Résumé
Cet article présente deux méthodes originales d'analyse de données textuelles assistée par ordinateur : l'analyse par attracteurs et par classes. Le corpus traité se compose de données ethnographiques en langue française qui sont à la base des entrées de l'Encyclopédie Culturelle Hypermédia de l'Océanie. Le but de l'expérimentation consiste à comparer le bassin d'attraction et les graphes du réseau sémantique de l'attracteur "Kava" obtenus par deux autres chercheurs suite à une analyse de contenu traditionnelle, à ceux obtenus "à l'aveugle" par Numexco, un logiciel de la plate-forme SATIM développée par le LANCI-UQAM qui permet d'appliquer une méthode connexionniste au problème de l'extraction de connaissances à partir de textes numérisés
Mots clés
Analyse de données textuelles, logiciels d'analyse de textes, connexionnisme, méthode d'analyse, anthropologie culturelle
Abstract
This paper presents two original methods of textual processing analysis: analysis by attractor and by class. The corpus processed is composed of ethnographic data in French found in the Cultural Hypermedia Encyclopedia of Oceania. The goal of this data processing is to compare the pool of attraction and graphs of the semantic network of the attractor "Kava", which was developed by two researchers on the basis of traditional content analysis, with the pool of attraction and graphs developped by Numexco. Numexco, which was developed by LANCI-UQAM, is a software program of the SATIM plateform, by which one can conduct connectionist analyses and extract knowledge from digitized texts
Keywords
Textual analysis, software textual analysis, connectionism, analysis methodology, cultural anthropology
Simon Lemieux
"Utilisation de Numexco pour le repérage de termes-clés dans le domaine des télécommunications sans fil entre ordinateurs "
Résumé
Cet article traite des deux premières séries de tests qui ont été effectués sur le corpus utilisé dans le cadre du projet GDST (Gestion et Diffusion du Savoir en Télécommunications) par le biais de la chaîne de traitement Numexco du laboratoire Lanci de l'Université du Québec à Montréal. Le but de ces tests était d'en arriver à repérer les termes-clés propres à ce domaine ainsi que les potentielles relations présentes entre eux, et ce, afin de fournir une assistance informatique à la construction de l'ontologie de ce même domaine, cette ontologie étant en fait la visée finale du projet GDST. En plus d'avoir permis le repérage de bon nombre de termes et de relations, ces deux séries nous ont permis de prendre conscience des facteurs qui perturbent la classification de Numexco, ce qui ne pourra être que bénéfique lors des autres tests qui seront éventuellement faits sur ce corpus
Mots clés
gestion documentaire, classification documentaire, identification de termes-clés, ommunications sans fil entre ordinateurs
Abstract
This article deals with the first two series of tests that have been done on the corpus used for the GDST Project (Gestion et Diffusion du Savoir en Télécommunication) with the classification system Numexco created by the Lanci Laboratory (UQAM - Université du Québec à Montréal). The aim of the tests was to identify the key terms in the domain of wireless communication between computers and the potential relations between these terms. Based on these two tasks, another aim is to give computer assistance to the ontology building of the domain, the ontology itself being the final goal of the GDST Project. In addition to the fact that they have permitted the identification of some key terms and relations, these two tests have allowed us to discover the factors that can disrupt Numexco classification, factors that will as a result be handled more easily during forthcoming tests on the same corpus
Keywords
document management, document classification, key-term identification, wireless communication between computers
Question de méthode
Céline Desmarais et Jean Moscarola
"Analyse de contenu et analyse lexicale, le cas d'une étude en management public "
Résumé
Les outils de traitement informatisés des données textuelles ouvrent de nouvelles perspectives pour les méthodes d'analyse des données qualitatives. Cependant l'utilisation de ces outils n'est guère stabilisée et leur validité pose question. Comment s'y prendre pour en tirer une connaissance, et comment garantir à celle-ci une légitimité scientifique ? Quelles méthodes privilégier parmi l'arsenal dont le chercheur dispose désormais ? Pour apporter des réponses à cet ensemble de questions, cet article analyse un processus de recherche ayant eu pour objectif d'appréhender l'évolution des rôles de l'encadrement des villes, en contexte de modernisation. Il expose plus particulièrement deux méthodes : l'analyse de contenu et l'analyse lexicale, dont les potentialités et la complémentarité sont développées
Mots clés
Analyse de contenu, analyse lexicale, administration publique
Abstract
Lexical statistics and textual data analysis open new opportunities for content analysis. However, the use of these tools also raises questions. How should they be used and how can they be given scientific legitimacy? Which methods and which research strategies should be privileged?
In order to answer these questions, this article discusses a research project in public management based on interviews with municipal workers and elected representatives. This example is used to demonstrate how lexical analysis and content analysis can be combined, and to what extent each methodology brings specific insights to the corpus
Keywords
Content analysis, Lexical analysis, Public administration
|
Mots-clés |
populisme, proximité, populisme de droite, discours du trône, parti conservateur, parti libéral, cor, nouveau-brunswick, discours politique, bernard lord, hyperbase, intex, français acadien, verbe aller, expressions figées, lexique-grammaire,
grammaires locales, lexique-grammaire, traitement automatique des langues, corpus, corpus dynamique, traitement automatique des langues, unitex, glossanet, mot inconnu, néologisme, québécisme,
analyse de données textuelles, logiciels d'analyse de textes, connexionnisme, méthode d'analyse, anthropologie culturelle,
conventions nationales acadiennes, france, ancien régime, représentation, sacré, mythe, origine, société, religion, éducation, langue française,
gestion documentaire, classification documentaire, identification de termes-clés, communications sans fil entre ordinateurs,
variation graphique, lemmatisation, filemaker pro, sato, bases d'analyse verbale, français médiéval, français vernaculaire,
analyse de contenu, analyse lexicale, administration publique, hétérolinguisme, bilinguisme, sphinx, eurêka, volkswagen blues, analyse de contenu, alternances de codes, langues,
condensés de textes, résumés automatiques, analyse de textes, méthodes statistiques,
données musicales, chants modaux, statistique textuelle, charakan, chant liturgique arménien, oktoéchos, formules, motifs, degrés, intervalle, saut, corde, arrêt |
|
|