Nouveautés
Appels à communication
Comités
JADT
Soumission
Articles
Thèmes
Archives
Carnet d'adresses
Index des auteurs
La page CORPORA
JADT / GADT
La page des liens
Comptes-rendus d'ouvrages
La page Forum

Accueil Contact

Lexicometrica
Numéro spécial

Responsables du numéro Sylvie Mellet, André Salem
Thème du numéro Topographie et topologie textuelles
Sommaire de ce numéro

Préambule

Depuis ses débuts la statistique linguistique, y compris lorsqu’elle s’applique à l’étude des textes et des discours, a principalement recouru à des modèles qui tendent à négliger ce fait majeur qu’un texte est une structure ordonnée ; les dénombrements, les relevés de fréquences, les calculs de spécificités reposent tous sur le fameux schéma d’urne et renoncent à prendre en compte le positionnement dans le texte des unités dénombrées. Certes, les résultats ainsi obtenus sont généralement intéressants et bien interprétables, et ils ont largement contribué au développement et aux succès de la discipline.
Mais ils se pourraient qu’ils soient en train d’atteindre leurs limites. Ou, du moins, de ne plus suffire pour donner entière satisfaction au chercheur. De plus en plus souvent en effet, ceux-ci souhaitent pouvoir établir, à côté de la dimension paradigmatique appréhendée par ce type de calculs statistiques traditionnels, la dimension syntagmatique des données textuelles, saisies à courte ou à longue portée : distribution régulière ou non d’une entité linguistique (mot ou catégorie grammaticale) susceptible d’arriver à intervalles à peu près égaux ou, au contraire, en paquets plus ou moins denses ; répartition d’un élément au fil du texte, selon la structure globale de celui-ci et ses parties constituantes ; phénomènes d’échos et d’alignements dans la mise en parallèle de deux textes ou deux portions de textes ; etc.
Bien sûr, des travaux, dont certains sont déjà anciens, ont abordé ces questions : parmi les plus connus citons tous ceux d’A. Salem qui ont établi la pertinence de la fameuse notion de « segment répété » et qui ont mis en place les outils pour les repérer et les analyser ; citons aussi les travaux de P. Lafon sur les « rafales » et son article "Statistique des localisations des formes d’un texte" paru en 1984 dans la revue Mots ; ou encore l’article de D. Sérant et Ph. Thoiron sur la « topographie des formes répétées » (Revue Informatique et Statistique dans les Sciences humaines 24, pp. 333-343) ; etc.
Actuellement, cette question reprend de l’acuité et les études, ainsi que les développements logiciels afférents, se multiplient. Le moment nous semble donc venu de faire le point.
Ce numéro de Lexicometrica accueille des contributions consacrées aux notions de topographie et topologie textuelles, c’est-à-dire à la prise en compte, dans les exploitations automatiques des textes numérisés et dans leur traitement quantitatif de la linéarité intrinsèque du texte, voire de sa structure en réseau avec d’autres textes au sein d’un corpus fortement cohérent (cas des recueils par exemple).


Sylvie Mellet1, Jean-Pierre Barthélemy2 (1Laboratoire BCL, Université Nice Sophia-Antipolis, CNRS ; MSH de Nice, 98 bd E. Herriot, 06200 NICE, 2ENST de Bretagne, BP 832, 29285 Brest Cédex)

    "La topologie textuelle : légitimation d'une notion émergente"

      Abstract

      The notion of textual topology has been introduced, at first intuitively, with the aim to take into account, within the frame of quantitative analyses and automatic comparisons and classifications, the syntagmatic dimension of texts and their linearity. The purpose of this paper is to give this new notion an epistemological justification so that it becomes well-founded. It will be demonstrated that it is possible to see in each text a topological finite space offering all the properties of such spaces. The concepts of "neighbourhood" and "pattern" will support this demonstration. At last, we will examine whether there are - or not - any links between the specific topological representation of each text of a corpus and the topology of the spaces which give graphical representations of the different possible structurations of the whole corpus.

      Keywords : Topology, topological space, neighbourhood, pattern, linear structure

      Résumé

      La notion de topologie textuelle a été introduite de manière d'abord intuitive pour pouvoir rendre compte, y compris dans les traitements quantitatifs et dans les comparaisons et classifications automatiques, de la dimension syntagmatique des textes, de leur structure linéaire et de leur dynamique interne. Cet article a l'ambition de fonder épistémologiquement cette notion et de lui donner une véritable légitimité. On montrera donc que tout texte peut être appréhendé comme un espace topologique fini répondant aux propriétés définitoires d'un tel espace. On s'appuiera pour ce faire sur les concepts de " voisinage ", puis de " motif ". On terminera en s'interrogeant sur les liens - ou l'absence de liens - entre la représentation topologique interne propre à chaque texte et la topologie externe des espaces de représentation qui tentent de donner à voir, graphiquement, les différentes structurations possibles d'un corpus.

      Mots clés : Topologie, espace topologique, voisinage, motif, structure linéaire


Damon Mayaffre (CNRS-UMR 6039 Bases, Corpus et Langage. mayaffre@unice.fr)

    "L'analyse de données textuelles aujourd'hui : du corpus comme une urne au corpus comme un plan. Retour sur les travaux actuels de topographie/topologie textuelle (partie I)"

      Abstract

      Textual Data Analysis et Lexical Statistics try to consider, from now on, the text as an orderly structure and organized space. Softwares (Lexico and Hyperbase) can testify of the linear organization and the progress of texts and of corpora. So, the traditional Textual Linguistics and Textual Data Analysis move closer to their point of view.

      Keywords : Text Topology, Text Topography, Textual Statistics, Textual Data Analysis, Lexico, Hyperbase.

      Résumé

      L'Analyse de données textuelles se propose désormais de considérer le texte comme une structure ordonnée ou comme un espace organisé. Les logiciels d'ADT tels Lexico et Hyperbase peuvent en effet témoigner aujourd'hui de l'ordonnancement linéaire et de la progression du texte et du corpus. Ainsi, l'Analyse de données textuelles rejoint la Linguistique textuelle traditionnelle dans ses préoccupations fondamentales.

      Mots clés : Topologie textuelle, topographie textuelle, statistique textuelle, ADT, Lexico, Hyperbase


Étienne Brunet (Laboratoire BCL (UMR 6039), Université de Nice, MSH, 98 Bd Edouard Herriot, BP 3209, 06204 Nice cedex 3. brunet@unice.fr)

    "Fréquences et séquences. Mise en œuvre dans Hyperbase."

      Abstract

      Keywords :

      Résumé

      On tente ici de rendre compte des fameuses isotopies qui rayonnent dans les textes littéraires et qu'on espère isoler dans l'étude des séquences. L'accent est mis sur le recensement et le traitement des cooccurrences. Plusieurs méthodes, relativement convergentes, sont exposées, dont certaines reprennent les voies initiées par Pierre Lafon, Max Reinert, Serge Heiden et André Salem. On décrit leur implémentation dans le logiciel Hyperbase.

      Mots clés : Séquences, fréquences, cooccurrences, corrélats, topologie, proxémie, thématique, constellation lexicale, Alceste


Julien Bourdaillet1, Jean-Gabriel Ganascia1 , Jean-Louis Lebrave2 (1Laboratoire d'Informatique de Paris 6 Université Pierre et Marie Curie 104 avenue du président Kennedy - 75016 Paris, 2Institut des Textes et Manuscrits Modernes Ecole Normale Supérieure 45 rue d'Ulm - 75005 Paris)

    "Topologie et génétique textuelles : un dialogue médié par la machine."

      Abstract

      A joint work between genetic criticism and informatics involved the development of the software application MÉDITE. Its algorithmic foundations rely only on the character sequence composing the text. These foundations, as well as their close relationship with the notions of textual topology and topography, are presented.

      Keywords : Textual Topology, Genetic Criticism, Stringology, Monolingual Alignment, Neighbourhood, Sequence, Network

      Résumé

      A partir de nos travaux conjoints en critique génétique et informatique, nous avons développé un logiciel d'alignement textuel nommé MÉDITE. Les principes algorithmiques sous-jacents considèrent le texte comme une simple séquence de caractères. Nous présentons ces principes et montrons en quoi ceux-ci sont intrinsèquement basés sur des notions de topologie et topographie textuelles.

      Mots clés : topologie textuelle, critique génétique, algorithmique textuelle, alignement monolingue, voisinage, séquence, réticularité


Stephan Vonfelt (Université de Toulouse Le Mirail - Laboratoire Lettres, Langages et Arts stephan.vonfelt@free.fr)

    "Le graphonaute ou Molière retrouvé."

      Abstract

      Did Corneille write the plays of Molière? The answers contradict each other, including those refering to the objectivity of figures. In this vein, our study bases on the distribution of characters composing a text. Between two works, the resulting distance renders the contribution of the author, but also the gender, the form and the chronology. The measurement does not incite to melt Molière into Corneille and highlights the variety of his work, probably influenced by several sources.

      Keywords : author attribution - classification - rhythm - statistics - stylistics – stylometry – text topology

      Résumé

      Corneille a-t-il écrit les pièces de Molière ? Les réponses se contredisent, y compris celles qui se réfèrent à l’objectivité des chiffres. Dans cette veine, notre étude se fonde sur la répartition des caractères composant un texte. Entre deux oeuvres, la distance résultante traduit la contribution de l’auteur, mais aussi du genre, de la forme et de la chronologie. Les mesures n’incitent pas à fondre Molière dans Corneille et mettent en lumière la variété de son oeuvre, probablement influencée par diverses sources.

      Mots clés : attribution d’auteur - classification - rythme - statistique - stylistique – stylométrie – topologie textuelle


Mots-clés Topologie textuelle, topographie textuelle, statistique textuelle, ADT, Lexico, Hyperbase, topologie, espace topologique, voisinage, motif, structure linéaire, séquences, fréquences, cooccurrences, corrélats, topologie, proxémie, thématique, constellation lexicale, Alceste, critique génétique, algorithmique textuelle, alignement monolingue, voisinage, séquence, réticularité, attribution d’auteur, classification, rythme, statistique, stylistique, stylométrie textuelle


LEXICOMETRICA (ISSN 1773-0570)
Coordinateurs de la rédaction : André Salem, Serge Fleury
Contacts:  lexicometrica@univ-paris3.fr
ILPGA, 19 rue des Bernardins, 75005 Paris France