Lexicometrica

Nouveautés

Appels à communication

Comités

JADT

Soumission

Articles

Thèmes

Archives

Comptes-rendus d'ouvrages

La page Forum

Accueil

Contact

Lexicometrica n°0 - 1997

Behar H.
"La méthode d'Hubert de Phalèse"

Résumé : Lors de la publication de Comptes A Rebours, plusieurs lecteurs se sont interrogés sur la personnalité réelle de l'auteur dénommé Hubert de Phalèse. Certains critiques y ont vu un pseudonyme évoquant je ne sais quel aristocrate normand, en écho au personnage de J.-K. Huysmans, Jean Floressas des Esseintes. D'autres, sans doute plus sensibles au travail de bénédictin que représentait un tel ouvrage, ont pensé à un ecclésiastique disposant d'assez de loisirs pour produire une somme d'index et de comptages. D'autres enfin, plus attentifs au texte lui-même, ou peut-Ítre mieux informés, ont soupçonné le pseudonyme d'un collectif de chercheurs de l'université Paris III-Sorbonne Nouvelle. Ceux-ci avaient, en partie, raison puisque, l'année suivante, paraissaient, presque simultanément, deux volumes signés du même nom, et fournissant la liste des collaborateurs de tous les volumes parus. C'est dire que ceux-là ne recherchaient ni la mystification littéraire, ni l'anonymat absolu.
En vérité, ils n'avaient fait que suivre l'usage des facteurs de concordances bibliques. L'un d'entre eux explique : ...

Brunet E.
"Les liens hypertextuels"

Résumé : Le concept d'hypertexte - ou tout au moins le mot - remonte à 1980. On le doit à un visionnaire, Ted Nelson, dont on ne sait s'il a anticipé la mode ou s'il l'a lancée. Le langage fait une grande consommation des préfixes intensifs et l'on aurait pu penser que l'essor du préfixe hyper s'essoufflerait à la longue et que le succès irait à quelque autre rival comme supra, extra, ultra, méta, trans ou super. Il n'en est rien. Hyper est au zénith et son succès se confirme dans les dernières tranches de FRANTEXT, comme en témoigne l'histogramme ci-dessous. À vrai dire l'hypertexte n'a aucune influence dans cette distribution, puisqu'on n'en rencontre aucun exemple dans FRANTEXT. Au reste la dernière tranche, qui commence en 1980 et n'a pu aller jusqu'à son terme, contient encore trop peu de textes pour qu'on en tire des conclusions. Encore faudrait-il que ces textes ait un rapport avec le domaine de l'informatique où l'hypertexte a fait son nid et couvé ses petits, français ou anglais: hypertextuel, hypermédia, hyperlien, hyperdocument, hypercard, hypertalk, hyperbase, hyperlink, hyperdoc, hypertool, etc. Il y a gros à parier qu'on verra bientôt naître un gros Hypernet pour désigner l'Internet de demain, plus puissant et plus rapide.

Guilhaumou J.
"L'analyse de discours et la lexicométrie"

Résumé : Dans la mesure où elle permet une approche quantitative de la répartition des formes dans un corpus déterminé, la lexicométrie occupe une position spécifique au sein du dispositif expérimental de l'analyse de discours.
En effet, l'historien du discours s'intéresse d'abord aux ressources interprétatives des textes sur la base d'une lecture d'archives dominée par la saisie de sources hétérogènes. Il opère ainsi un travail configurationnel complexe, reconstitue une intrigue, décrit un trajet discursif autour d'un événement, d'une notion-concept, d'un itinéraire individuel (J. Guilhaumou, 1993)...

Habert B., Barbaud Ph., Dupuis F., Jacquemin Ch.
"Simplifier des arbres d'analyse pour dégager les comportements syntactico-sémantiques ..."

Résumé : Des groupes nominaux complexes fournis par un outil d'extraction terminologique sont simplifiés pour obtenir les arbres élémentaires montrant les relations sémantiques fondamentales d'un corpus. Ce processus d'acquisition de connaissances est testé sur un corpus médical.
Complex nominal phrases provided by a terminology extraction software are simplified in order to get elementary trees giving the main semantic relationships of a corpus. This knowledge extraction process is tested on a medical corpus.

Labbé D., Hubert P.
"Vocabulary Richness"

Résumé : We propose a model to analyse the vocabulary of a corpus. This vocabulary is divided into two groups. First, the author uses the same general words whatever the circumtances. Second, several specialised vocabularies are used in only one part of the corpus. General words may appear everywhere in the text : their increase with the corpus' size can be estimated with Muller's formula. On the contrary, specialised vocabularies grow proportionally according to the corpus' size. We calculate the relative importance of the two vocabularies. This calculus gives an estimation of the lexical 'specialisation' in the text.
The 'vocabulary partition model' is easy to compute and it works well. It has been applied to several corpora to locate stylistic or thematic changes and to measure the vocabulary richness with three indicators : diversity, specialisation, oddness.
Vocabulary richness is often used in quantitative stylistics. It measures the number V of different words in the N types used in a text (we use the terminology and symbols proposed by Charles Muller, 1977). One researches the ideal "norm" and unique indicator, valid in any cases whatever length or nature of analysed texts, but none of these formulas appears satisfactory. So one now compares directly some texts -- when their lengths are similar -- or by shortening them to the size of the most little one. (Muller, 1977 et 1979b ; Bernet, 1988).
Firstly, this paper shows how the analyse must take into account the "specialisation" of the vocabulary. Then, we propose a division of the "vocabulary richness" according to three notions (diversity, originality and vocabulary growth ).

Lebart L.
"Statistical processing of responses to open questions in survey analysis"

Résumé : Today computer-readable media are becoming the most natural way of storing textual information. Consequently, automatic processing of raw texts is beginning to have new objectives: verification of data entry, data retrieval, creation of typologies of texts as an initial exploratory step, comparisons of sets of responses to open ended questions. The techniques that are discussed below concerns this last family of applications. They are independent of the actual language in which a text is written.
The procedures presented in this paper are based upon applying multivariate descriptive techniques (such as correspondence analysis) to the analysis of responses to open-ended questions. An international survey will serve as an example...

Reinert M.
Les "mondes lexicaux" et leur "logique"

Résumé : Notre pratique dans le domaine de l'analyse statistique des données textuelles[1] a abouti à la mise au point d'une méthodologie particulière : la méthodologie "Alceste" (pour "Analyse des Lexèmes Cooccurrents dans les Enoncés Simples d'un Texte" ). Nous désirons donner ici un aperÁu de nos objectifs et espérons, de cette manière, ouvrir un débat sur le statut des "objets" cernables à travers ce type d'approche statistique pour le sociologue ou le linguiste. On présentera : (1) En introduction, quelques réflexions et interrogations sur le sens de la démarche "Analyse des Données" pour l'analyse de corpus de textes ; (2) La méthodologie "Alceste" et la notion de "mondes lexicaux" (qui est au centre de la stratégie proposée). (3) Les principaux résultats de l'analyse d'un corpus de récits de cauchemars. (4) Un essai d'interprétation : on ne souhaite pas tant mettre en valeur des résultats particuliers que de présenter, à travers eux, une articulation des notions évoquées en (2)...

Salem A.
"De travailleurs à salariés"

Résumé : Les méthodes de la lexicométrie chronologique permettent désormais d'étudier directement l'évolution du vocabulaire dans une série textuelle chronologique (STC). Dans les études chronologiques, la prise en compte de la variable temps permet de caractériser les périodes ou les groupes de périodes successives, en fonction du vocabulaire qu'elles emploient et d'attirer l'attention du chercheur sur l'apparition ou la disparition de sous-ensembles de vocabulaire au cours d'une période donnée. Dans ce qui suit, nous illustrerons les possibilités nouvelles offertes par les méthodes chronologiques à l'aide d'un exemple très simple emprunté au corpus de textes de congrès syndicaux réunis au laboratoire de St. Cloud.

LEXICOMETRICA (ISSN 1773-0570)
Coordinateurs de la rédaction : André Salem, Serge Fleury
Contacts: lexicometrica@univ-paris3.fr
ILPGA, 19 rue des Bernardins, 75005 Paris France