Lexicometrica n°0 - 1997
Behar H.
"La
méthode d'Hubert de Phalèse"
Résumé :
Lors de la publication de Comptes A Rebours, plusieurs lecteurs se sont
interrogés sur la personnalité réelle de l'auteur
dénommé Hubert de Phalèse. Certains critiques y ont vu un
pseudonyme évoquant je ne sais quel aristocrate normand, en écho
au personnage de J.-K. Huysmans, Jean Floressas des Esseintes. D'autres, sans
doute plus sensibles au travail de bénédictin que
représentait un tel ouvrage, ont pensé à un
ecclésiastique disposant d'assez de loisirs pour produire une somme
d'index et de comptages. D'autres enfin, plus attentifs au texte
lui-même, ou peut-Ítre mieux informés, ont
soupçonné le pseudonyme d'un collectif de chercheurs de
l'université Paris III-Sorbonne Nouvelle. Ceux-ci avaient, en partie,
raison puisque, l'année suivante, paraissaient, presque
simultanément, deux volumes signés du même nom, et
fournissant la liste des collaborateurs de tous les volumes parus. C'est dire
que ceux-là ne recherchaient ni la mystification littéraire, ni
l'anonymat absolu.
En vérité, ils n'avaient fait que suivre l'usage des facteurs de
concordances bibliques. L'un d'entre eux explique : ...
Brunet E.
"Les liens hypertextuels"
Résumé :
Le concept d'hypertexte - ou tout au moins le mot - remonte à
1980. On le doit à un visionnaire, Ted Nelson, dont on ne sait s'il
a anticipé la mode ou s'il l'a lancée. Le langage fait une
grande consommation des préfixes intensifs et l'on aurait pu penser
que l'essor du préfixe hyper s'essoufflerait à la
longue et que le succès irait à quelque autre rival comme
supra, extra, ultra, méta, trans ou super. Il n'en
est rien. Hyper est au zénith et son succès se confirme
dans les dernières tranches de FRANTEXT, comme en témoigne
l'histogramme ci-dessous. À vrai dire l'hypertexte n'a aucune influence
dans cette distribution, puisqu'on n'en rencontre aucun exemple dans FRANTEXT.
Au reste la dernière tranche, qui commence en 1980 et n'a pu aller
jusqu'à son terme, contient encore trop peu de textes pour qu'on
en tire des conclusions. Encore faudrait-il que ces textes ait un rapport
avec le domaine de l'informatique où l'hypertexte a fait son nid
et couvé ses petits, français ou anglais: hypertextuel,
hypermédia, hyperlien, hyperdocument, hypercard, hypertalk, hyperbase,
hyperlink, hyperdoc, hypertool, etc. Il y a gros à parier qu'on
verra bientôt naître un gros Hypernet pour désigner
l'Internet de demain, plus puissant et plus rapide.
Guilhaumou J.
"L'analyse
de discours et la lexicométrie"
Résumé :
Dans la mesure où elle permet une approche quantitative de la
répartition des formes dans un corpus déterminé, la
lexicométrie occupe une position spécifique au sein du dispositif
expérimental de l'analyse de discours.
En effet, l'historien du discours s'intéresse d'abord aux ressources
interprétatives des textes sur la base d'une lecture d'archives
dominée par la saisie de sources hétérogènes. Il
opère ainsi un travail configurationnel complexe, reconstitue une
intrigue, décrit un trajet discursif autour d'un
événement, d'une notion-concept, d'un itinéraire
individuel (J. Guilhaumou, 1993)...
Habert B., Barbaud Ph., Dupuis
F., Jacquemin Ch.
"Simplifier
des arbres d'analyse pour dégager les comportements syntactico-sémantiques
..."
Résumé :
Des groupes nominaux complexes fournis par un outil d'extraction
terminologique sont simplifiés pour obtenir les arbres
élémentaires montrant les relations sémantiques
fondamentales d'un corpus. Ce processus d'acquisition de connaissances est
testé sur un corpus médical.
Complex nominal phrases provided by a terminology extraction software are
simplified in order to get elementary trees giving the main semantic
relationships of a corpus. This knowledge extraction process is tested on a
medical corpus.
Labbé D., Hubert P.
"Vocabulary
Richness"
Résumé :
We propose a model to analyse the vocabulary of a corpus. This vocabulary is
divided into two groups. First, the author uses the same general words whatever
the circumtances. Second, several specialised vocabularies are used in only one
part of the corpus. General words may appear everywhere in the text :
their increase with the corpus' size can be estimated with Muller's formula. On
the contrary, specialised vocabularies grow proportionally according to the
corpus' size. We calculate the relative importance of the two vocabularies.
This calculus gives an estimation of the lexical 'specialisation' in the text.
The 'vocabulary partition model' is easy to compute and it works well. It has
been applied to several corpora to locate stylistic or thematic changes and to
measure the vocabulary richness with three indicators : diversity,
specialisation, oddness.
Vocabulary richness is often used in quantitative stylistics. It measures the
number V of different words in the N types used in a text (we use the
terminology and symbols proposed by Charles Muller, 1977). One researches the
ideal "norm" and unique indicator, valid in any cases whatever
length or nature of analysed texts, but none of these formulas appears
satisfactory. So one now compares directly some texts -- when their
lengths are similar -- or by shortening them to the size of the most
little one. (Muller, 1977 et 1979b ; Bernet, 1988).
Firstly, this paper shows how the analyse must take into account the
"specialisation" of the vocabulary. Then, we propose a division of the
"vocabulary richness" according to three notions (diversity, originality
and vocabulary growth ).
Lebart L.
"Statistical
processing of responses to open questions in survey analysis"
Résumé :
Today computer-readable media are becoming the most natural way of
storing textual information. Consequently, automatic processing of raw texts is
beginning to have new objectives: verification of data entry, data retrieval,
creation of typologies of texts as an initial exploratory step, comparisons of
sets of responses to open ended questions. The techniques that are discussed
below concerns this last family of applications. They are independent of the
actual language in which a text is written.
The procedures presented in this paper are based upon applying multivariate
descriptive techniques (such as correspondence analysis) to the analysis of
responses to open-ended questions. An international survey will serve as an
example...
Reinert M.
Les
"mondes lexicaux" et leur "logique"
Résumé :
Notre pratique dans le domaine de l'analyse statistique des
données textuelles[1] a abouti
à la mise au point d'une méthodologie particulière : la
méthodologie "Alceste" (pour "Analyse des Lexèmes Cooccurrents
dans les Enoncés Simples d'un Texte" ). Nous désirons donner
ici un aperÁu de nos objectifs et espérons, de cette
manière, ouvrir un débat sur le statut des "objets" cernables
à travers ce type d'approche statistique pour le sociologue ou le
linguiste. On présentera :
(1) En introduction, quelques réflexions et interrogations sur le sens
de la démarche "Analyse des Données" pour l'analyse de
corpus de textes ;
(2) La méthodologie "Alceste" et la notion de "mondes lexicaux"
(qui est au centre de la stratégie proposée).
(3) Les principaux résultats de l'analyse d'un corpus de récits
de cauchemars.
(4) Un essai d'interprétation : on ne souhaite pas tant mettre en valeur
des résultats particuliers que de présenter, à travers
eux, une articulation des notions évoquées en (2)...
Salem A.
"De
travailleurs à salariés"
Résumé :
Les méthodes de la lexicométrie chronologique permettent
désormais d'étudier directement l'évolution du vocabulaire
dans une série textuelle chronologique (STC). Dans les études chronologiques, la
prise en compte de la variable temps permet de caractériser les
périodes ou les groupes de périodes successives, en fonction du
vocabulaire qu'elles emploient et d'attirer l'attention du chercheur sur
l'apparition ou la disparition de sous-ensembles de vocabulaire au cours d'une
période donnée.
Dans ce qui suit, nous illustrerons les possibilités nouvelles offertes
par les méthodes chronologiques à l'aide d'un exemple très
simple emprunté au corpus de textes de congrès syndicaux
réunis au laboratoire de St. Cloud.
|