Accueil Comites Articles News Soumission Logo

Lexicometrica
Numéro 4, 2003

Analyse de tableaux ternaires de données textuelles

Zárraga,  A.

 etpzacaa@bs.ehu.es
Departamento de Economía Aplicada III,
Universidad del País Vasco-Euskal Herriko Unibertsitatea
Bilbao, España

 

Goitisolo, B.

 etpgoleb@bs.ehu.es
Departamento de Economía Aplicada III,
Universidad del País Vasco-Euskal Herriko Unibertsitatea
Bilbao, España

 

Abstract. Factorial analysis of a 3-way frequency table is generally performed by correspondence analysis or, less frequently, by intra analysis. This requires that data be reduced to a 2-way table by means of the sum or juxtaposition of the binary tables of which it is composed. However those tables have a series of peculiarities which are not considered in this procedure, resulting in a joint analysis in which the internal relationships of each table may be altered. This paper is a brief presentation of the Simultaneous Analysis which enables the internal relationships of each table to be maintained. An application of this method to the study of a 3-way lexical table is also presented. 

Keywords : Factorial Analysis, Textual Data, Simultaneous Analysis

Résumé. L' analyse factorielle d' un tableau de fréquences ternaire s' effectue habituellement par une Analyse de Correspondances ou, moins fréquemment, à travers une Analyse Intra. Cela exige de réduire les données à un tableau binaire par la somme ou juxtaposition des tableaux binaires qui le composent. Toutefois, ces tableaux présentent une série de particularités qui ne sont guère prises en considération dans cette manière de procéder, provoquant une analyse conjointe dans laquelle les relations internes de chaque tableau peuvent se trouver altérées. Dans ce travail, on présente brièvement l' Analyse Simultanée qui permet de maintenir les relations internes de chaque tableau et l' on offre une application de celui-ci à l' étude d' un tableau lexical ternaire.

Mots-clés : Analyse Factorielle, Tableau lexical, Analyse Simultanée

1.    Introduction

L' analyse statistique de données textuelles comme, par exemple, celles provenant d' une enquête qui contient une ou plus d' une questions ouvertes commence fréquemment par la mise en place d' un tableau de contingence qui croise, d' une part, les mots utilisés dans les réponses à la ou aux questions ouvertes et, d' autre part, les caractéristiques des répondants (sexe, classes d' âge, niveaux d' études, etc.). L' analyse de ce tableau à travers l' Analyse Factorielle des Correspondances (AFC) offre principalement:

-       une structure sur les catégories des caractéristiques des personnes interrogées. De sorte que soient mises en évidence quelles sont les catégories considérées semblables dans la mesure où elles utilisent les mêmes mots.

-       une structure sur les mots utilisés par les répondants. De sorte que soient mis en évidence quels sont les mots employés par les mêmes catégories d' individus.

Il peut être souhaitable, néanmoins, de recourir à l' analyse globale d' une succession de tableaux de contingence du type "mots x catégories d' une caractéristique (par ex. classes d' âge) x catégories d' autre caractéristique (par ex. sexe)" provenant d' un tableau ternaire, défini par le croisement de trois variables. La méthodologie utilisée de manière classique [LEB 88], [LEB 94], [LEB 98] et [BEC 00 a] consiste dans les AFC séparées des différents tableaux de contingence et/ou dans l' Analyse Factorielle des Correspondances de la juxtaposition des tableaux (dans le cas où les lignes des tableaux seraient communes). Toutefois, les résultats découlant de cette manière de procéder peuvent en être affectés, comme on le signale dans [BEC 00 b] par:

-       Les différences entre les profils des marges-en-ligne des différents tableaux.

-       L' importance relative des tableaux dans l' analyse, mesurable au travers des contributions des colonnes, elle-même due:

·        à des différences entre les nombres totaux des tableaux: "toutes choses égales par ailleurs", un tableau influence d' autant plus l' analyse que son effectif total est important.

·        à des différences d' intensité de structure entre les tableaux: "toutes choses égales par ailleurs", un tableau influence d' autant plus l' analyse globale que sa structure est forte.

Ces auteurs ont récemment proposé l’Analyse factorielle multiple de tableaux de contingence pour tenter de donner une solution aux problèmes mentionnés. Néanmoins, comme eux-mêmes le font remarquer, cette méthodologie n’est appropriée que si les marges-en-ligne des tableaux sont égales ou très proches entre elles.

L' Analyse Simultanée [ZAR 02] permet que les marges-en-lignes des tableaux soient différentes et  permet de donner une solution aux inconvénients indiqués en fournissant une description conjointe des différentes structures contenues à l' intérieur de chacun des tableaux ainsi qu' une comparaison de ces structures. Dans [ZAR 02] on vérifie, par l' application à des données réelles, les différences entre la méthode exposée et les méthodes existantes, notamment l' Analyse de Correspondances du tableau somme, l' Analyse de Correspondances de la juxtaposition et par rapport à l' analyse intra [ESC 88]. On vérifie comment l' étude conjointe des relations internes à l' intérieur de chaque tableau est possible et l' utilité de l' Analyse Simultanée, en particulier, quand il existe des différences dans les totaux, dans les marges-en-ligne ou dans l' intensité de structure entre les tableaux.

Dans le présent travail, cependant, on ne présente pas des comparaisons avec les méthodes mentionnées d’analyse des données textuelles,  étant donné que celles-ci sont déjà connues et que la base de données utilisée dans l’application se trouve dans la base de données du logiciel SPAD (version 5.0) sous le nom de Enq_nt.sba (§ 3), à portée de quiconque désire faire les analyses opportunes.

L' objectif du présent travail n' est donc pas tant d' approfondir dans la statistique textuelle que de présenter l' Analyse Simultanée en tant que méthode venant compléter la méthodologie existante d' analyse de données textuelles.

2.    Méthodologie: l' Analyse Simultanée de plusieurs tableaux de contingence

Soit  l' ensemble des tableaux de contingence à analyser (figure 1).

 

Tableau 1

 

 

 

Tableau

 

 

 

Tableau

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Figure 1: Succession de tableaux

Chacun d' entre eux classifie les réponses de  individus à deux variables qualitatives codifiées en modalités. Tous les tableaux ont une des variables (dont les modalités, , se retrouvent dans les lignes) en commun. L' autre variable de chaque tableau de contingence peut être la même ou différente, codifiée de la même manière ou d' une manière différente. Les modalités de la seconde variable de chaque tableau  sont . En juxtaposant tous ces tableaux de contingence, on obtient un ensemble  de colonnes.

Si la succession de tableaux de contingence provient d' un tableau ternaire, les modalités , sont communes aux  tableaux. L' Analyse Simultanée est, cependant, extensible à l' étude de tableaux avec différentes modalités en colonnes.

Pour solutionner les problèmes indiqués au § 1, la méthode d' analyse de la juxtaposition des tableaux doit permettre:

-       d' équilibrer l' influence des tableaux en ajustant l' effectif de chacun des tableaux.

-       d' équilibrer l' influence des tableaux selon les différences d' intensité de structure entre les tableaux.

-       de conserver dans une analyse factorielle globale aussi bien les poids que la métrique de chacun des tableaux.

L' élément , correspond au nombre total d' individus qui choisissent simultanément les modalités   de la première variable et  de la seconde variable (appartenant au tableau  ).

L' Analyse Simultanée ajuste les effectifs des tableaux comme le premier pas pour équilibrer l' influence des tableaux. Pour cela, chacun des tableaux de contingence est transformé, en le divisant par , total du g-ième tableau,  , en un tableau de fréquences relatives.

On notera:

 

 

 

 

 

Afin de contrôler l' influence dans l' analyse globale des tableaux avec la plus forte structure, l' Analyse Simultanée introduit une pondération, que nous appelons    , , sur chacun des groupes (ici les tableaux de contingence). Cette pondération dépendra des inerties qui résultent d' une analyse des correspondances simples de chacun des tableaux traités séparément. Ces inerties pour le tableau  ,  , seront notées  (l' inertie projetée sur l' axe ,  ) et  (l' inertie totale). La pondération peut être équivalente à celle de l' analyse factorielle multiple [ESC 84] pour variables continues , celle équivalente à la méthode Statis [LHE 76],  pour privilégier des groupes de dispersion minimale, 1 si on ne veut pas de pondération sur les tableaux, etc.

Si l' on considère ,  , pondération adoptée dans l' exemple d' application (§ 3), la première valeur propre de l' analyse factorielle de l' ensemble des tableaux de contingence sera comprise entre 0 et G. Si on veut rester dans le cadre de l' analyse des correspondances et que la première valeur propre de l' analyse de l' ensemble des tableaux soit comprise entre 0 et 1, il suffira d' adopter comme pondération avec .

Enfin, pour que chaque tableau conserve ses poids et sa métrique dans l' analyse globale, la méthode que nous présentons exige des transformations dans les nuages de profils-colonnes et de profils-lignes que l' on détaille ci-après.

2.1    Analyse des colonnes

À chacun des ,  , tableaux de contingence est associé un sous-nuage, , de  profils-colonnes centrés:

 

 

 

avec les poids ,  , et la métrique de matrice associée la matrice diagonale des ,  .

Pour analyser les tableaux ensemble, nous sur-pondérons chaque sous-nuage par  ,  et comme ils sont tous situés dans le même espace, , nous considérons le nuage global, , qui englobe les  profils-colonnes. Dans ce nuage, les métriques sont différentes pour chaque sous-nuage de profils du même tableau, ce qui peut sembler empêcher l' analyse conjointe.

On peut transformer les profils-colonnes de chacun des tableaux pour considérer leurs distances euclidiennes. Dans l' analyse conjointe cela signifie considérer les profils-colonnes:

 

 

 

avec les poids  et la métrique euclidienne usuelle.

Dans cette analyse, les distances euclidiennes entre profils-colonnes du même sous-nuage respectent les distances du dans le sous-nuage original.

2.2    Analyse des lignes

Dans chacun des ,  , tableaux de contingence on définit les profils-lignes centrés,

 

 

 

(1)

avec les poids ,  et la métrique de matrice associée la matrice diagonale des , .

Puisque l' on cherche à analyser ensemble les ,  , tableaux et que les profils-lignes de chaque tableau sont représentés dans des espaces distincts, chacun dans un espace de dimension , il faut chercher un espace commun dans lequel on puisse effectuer l' analyse. Cet espace commun est , où l' on représente les profils-lignes de chacun des tableaux, appelés profils-lignes partiels. Les coordonnées de ces points correspondent à celles définies en (1), en complétant le reste des coordonnées par 0. Le profil-ligne partiel a alors pour coordonnées:

 

 

(2)

L' ensemble des profils-lignes partiels d' un même tableau forment un sous-nuage de points que nous noterons .

Afin d' effectuer l' analyse conjointe, on cherche pour chaque ligne un représentant, que nous noterons ,  dit "compromis", qui représente le sous-nuage de profils-lignes formé par tous les points de la même ligne dans les différents tableaux. L' ensemble de tous les représentants sur , muni de la métrique de matrice associée la matrice diagonale des  ,  , forme le nuage . Le compromis est choisi avec l' objectif que son inertie puisse s' exprimer comme une somme pondérée des inerties des profils-lignes partiels:

 

 

  (3)

et que, par conséquent, l' inertie du nuage compromis s' exprime comme somme pondérée des inerties des nuages partiels. Pour cela on définit le compromis comme moyenne pondérée des profils-lignes partiels  avec les poids   ,  ,

 

 

 

avec .

 

Si l' on considère  (avec ), les résultats factoriels ne se verront altérés que dans la proportion . On a considéré   dans la mesure où cela rend les formules plus claires.

2.3     Obtention des facteurs

Afin de chercher la relation entre les analyses des lignes et des colonnes dans les développements suivants, l' analyse factorielle de l' ensemble des tableaux de contingence s' effectue en recherchant les valeurs propres et les vecteurs propres , , issus de la diagonalisation de la matrice où le terme général de la matrice  est:

 

 

 

(4)

De plus, on utilisera les matrices diagonales  d' ordre et  d' ordre , de termes généraux respectivement:

 

 

 

On définit aussi la matrice , diagonale par blocs, où chaque bloc de la diagonale est la matrice  d' ordre qui se compose des coordonnées de la matrice  pour l' ensemble des colonnes  du tableau ,  , et on définit la matrice , diagonale par blocs aussi, où chaque bloc est, de même, une matrice diagonale d' ordre et de terme général ,  , .

Puisque dans l' analyse des lignes on diagonalise la matrice  et dans celle des colonnes la matrice la relation entre les valeurs propres et vecteurs propres des analyses des lignes et colonnes est:

 

 

 

      

 

 

 

(5)

 

 

 

(6)

2.4    Projections des profils

On calcule les projections  sur l' axe ,  , des profils-lignes partiels , des compromis , , et des profils-colonnes  Les projections de tous les profils-lignes partiels et compromis sont respectivement  avec et et de toutes les colonnes . Les projections sur l' axe ,  , des lignes et colonnes sont calculées en sachant qu' il est nécessaire d' éliminer l' effet de l' introduction des poids et les profils-lignes partiels sont projetés comme supplémentaires en éliminant aussi l' effet de l' introduction du poids:

 

 

(7)

 

 

(8)

 

 

(9)

2.5    Aides à l’interprétation

Dans l' analyse proposée, on peut obtenir les mêmes aides à l' interprétation que dans les analyses factorielles habituelles.

Les contributions des points à la formation de l' axe , , sont calculées de la manière habituelle en divisant l' inertie projetée d' un point (poids par coordonnée au carré) par la somme des inerties de tous les points du nuage sur l' axe , c'est-à-dire:

 

 

 

 

La qualité de représentation d' un point sur l' axe , , se mesure par les contributions relatives. On les calcule par le quotient de l' inertie projetée du point sur l' axe ,  , sur l' inertie totale du point ou par le carré de la projection sur l' axe , , sur la distance, au carré, du point à l' origine:

 

 

 

 

avec pour distance, au carré, de la colonne à l' origine:

 

 

 

et pour la distance, au carré, du compromis à l' origine:

 

 

 

 Les relations entre les projections des lignes (compromis) et colonnes ainsi que leurs propriétés peuvent être consultées dans [ZAR 02] et [GOI 02].

3.    Application de l' Analyse Simultanée à l' étude d' un tableau lexical ternaire

3.1    Les Données

Pour l' application de l' Analyse Simultanée à l' étude de données textuelles on a recours aux données relatives à l' enquête qui se trouve dans la base de données du logiciel SPAD (version 5.0), sous le nom Enq_nt.sba. Cette enquête contient les réponses de 300 individus à 12 questions fermées, portant sur sexe, état civil, catégories d' âge, niveaux d' études, etc. Parmi ces questions se trouvent "Opinion sur le mariage" avec 4 modalités de réponse: Union indissoluble, dissolution en cas grave, dissolution en cas d' accord mutuel et la modalité ne sais pas ainsi que "Nombre idéal d' enfants" avec 5 modalités de réponse: 0 ou 1 enfant, 2, 3, 4 ou plus et non-réponse. Associées à ces deux dernières questions, se trouvent deux questions ouvertes dans lesquelles on consulte les individus en les interrogeant: pourquoi? "Pourquoi avez-vous cette opinion sur le mariage?" et "Pourquoi ce nombre idéal d' enfants?" Dans l' application présentée dans le cadre de ce travail, on a sélectionné la question ouverte relative à l' opinion sur le mariage et les mots utilisés par les personnes interrogées au moment d' y répondre. Les 300 personnes interrogées répondent à cette question ouverte en utilisant 639 mots différents, prononcés au total en 3419 occasions. Sur ces mots employés, on a retenu les 84 qui apparaissent avec une plus grande fréquence que six. Lesquels ont été prononcés au total en 2467 occasions.

Par ailleurs, en ce qui concerne les caractéristiques des individus, on a retenu pour l' étude le sexe, les catégories d' âge et les modalités de réponse à la question fermée relative à l' opinion sur le mariage.

Outre les mots, utilisés comme actifs dans l' analyse, on a sélectionné les 120 segments répétés avec une fréquence supérieure à quatre. [LEB 88] définissent les segments comme "toute suite d' occurrences consécutives dans le corpus et non séparées par un séparateur de séquence". L' utilisation de ces segments comme éléments illustratifs permet de remettre dans leur contexte les mots isolés en améliorant l'interprétation des résultats de l'analyse.

La sélection du vocabulaire de mots ainsi que des segments répétés a été réalisée en recourant aux méthodes d'Analyse Textuelle de SPAD (MOTS, VOSPEC y SEGME).

Ainsi, l' Analyse Simultanée s' applique (figure 2) aux quatre tableaux de contingence, un pour chaque catégorie d' âge: 17-25, 26-39, 40-59, 60 ou plus, dont les lignes sont constituées par les 84 mots retenus et dont les colonnes sont le résultat du croisement des deux modalités de sexe et des trois d' opinion sur le mariage (la modalité ne sais pas a été éliminée pour son faible effectif). Le terme général de chaque tableau représente la fréquence avec laquelle le mot i a été employé par la catégorie j.

 

1-in17.25ho

j

1-gr17.25fe

 

 

 

 

 

1-in60.ho

j

1-in17.25ho

 

A

 

 

 

 

 

 

 

 

 

A

 

 

 

 

 

 

Accord

 

 

 

 

 

 

 

 

 

Accord

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Y

 

 

 

 

 

 

 

 

 

Y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Figure 2: Tableaux à analyser

Dans l' analyse ces dernières modalités sont identifiées par une série de caractères. Ainsi, par exemple, 1-in17.25ho représente le profil des mots employés par les individus du groupe 1, d' âge compris entre 17 et 25 ans, quand ils jugent le mariage indissoluble (in), et il s' agit d' hommes (ho).

3.2    Résultats de l' Analyse Simultanée

Sachant que l' Analyse Simultanée permet que chaque groupe maintienne sa propre structure interne, les relations établies entre les différentes opinions sur le mariage (indissoluble, dissolution en cas d'accord mutuel, dissolution en cas grave), à l' intérieur de chaque groupe d' âge sont celles que l' on trouverait dans chacune des quatre analyses séparés. Ceci étant, l' Analyse Simultanée permet de réfleter les relations internes à chaque tableau et les relations entre les différents tableaux à un seul référentiel commun, les axes créés à partir du nuage de mots-compromis (§ 2.2).

Le premier plan factoriel résultant de l' Analyse Simultanée des quatre tableaux représente 25.63% de l' inertie (tableau 1).

Les trois premiers groupes d' âge présentent une contribution similaire dans la création des deux facteurs (tableau 2), la contribution du quatrième groupe étant la moins importante. On considère la contribution d' un groupe à un facteur comme la somme des contributions de ses éléments à ce facteur.


Inertie

Pourcentage

Pourcentage

 

 

 

cumulé

Axe 1

1.64

13.10

13.10

Axe 2

1.57

12.53

25.63

Axe 3

1.24

9.92

35.55

 

 

 

 

In Tot

12.54

 

 

Tableau 1: Inerties projetées sur les axes et Inertie totale

 

 

Axe 1

Axe 2

Axe 3

G=1 (17.25)

0.2627

0.2355

0.06264

G=2 (26.39)

0.3024

0.3655

0.12230

G=3 (40.59)

0.3007

0.2758

0.32487

G=4 (60+)

0.1342

0.1232

0.49019

Tableau 2: Contributions de chaque tableau à l' Analyse Simultanée

L' étude de la multidimensionnalité des groupes se réalise à travers la mesure L(g), comparable à celle utilisée dans l' Analyse Factorielle Multiple [ESC 84] et [ZAR 03]. Le tableau  3 montre comment le troisième et le quatrième groupe sont les plus multidimensionnels et, pour cette raison, ceux qui contribuent le plus à la formation du troisième facteur.

g=1 (17.25)

2.0846

g=2 (26.39)

1.9903

g=3 (40.59)

2.6751

g=4 (60+)

2.2450

Tableau 3: L(g)

Sur le plan factoriel sont représentées les trois opinions sur le mariage: Indissoluble, dans le second quadrant du plan (figure 3), dont les modalités contribuent à 50.77% de l' inertie du second facteur. Les contributions les plus fortes étant celles relatives au groupe d' âge de 26 à 39 ans (24.5%). La dissolution d' un commun accord, dans le troisième quadrant, occupe une partie du quatrième quadrant. Les modalités de ce groupe d' opinion contribuent surtout à la création du second facteur et apportent 38.69% de son inertie. Enfin, la dissolution en cas grave se projette pratiquement au centre de gravité du second facteur et détermine le premier facteur dans sa partie positive, en contribuant à 62.23% de son inertie.

Dans chacune des trois options possibles sur le mariage, les projections des profils de mots par âge et sexe permettent de vérifier une certaine dispersion. Ce qui indique qu' en dépit de l' existence d' un vocabulaire caractéristique pour chacune des opinions sur le mariage, il existe, par ailleurs, à l' intérieur de chacune d' elles un usage différent du langage selon l' âge et le sexe. Par exemple, la séparation entre les projections des hommes de plus de 60 ans et de moins de 25 qui jugent le mariage indissoluble (4-in60.ho et 1-in17.25ho, respectivement) indique un vocabulaire différent en fonction de l' âge. L' usage de mots différents entre hommes et femmes qui possèdent le même âge et la même opinion sur le mariage est vérifiable, par exemple, parmi les jeunes de 17 à 25 ans, qui considèrent valable la dissolution en cas grave (1-gr17.25fe et 1-gr17.25ho).

Nous pouvons trouver, avec la projection des mots-compromis (figure 4), certains mots qui sont plus spécifiques de chacune des trois opinions et l' on peut expliquer à travers la projection des profils partiels des mots, la dispersion mentionnée auparavant. De même, la projection, comme éléments supplémentaires, des segments répétés (figures 5 et 6) permet d' interpréter le contexte dans lequel ces mots sont utilisés par les individus.

On a opté pour représenter les projections des profils-colonnes, des mots-compromis et des segments répétés en figures différentes, au lieu de la représentation simultanée habituelle, pour faciliter la lecture et l' interprétation de leurs relations.

Le grand nombre de mots avec une projection proche de l' origine n' indique rien d' autre qu' une utilisation assez commune du langage, en général, par tous les individus interrogés.

Parmi les mots-compromis qui participent dans la formation des axes, ceux qui présentent les contributions les plus fortes sont aussi majoritairement ceux qui constituent le vocabulaire spécifique des individus, dans le sens de l' Analyse Textuelle [LEB 88], lorsqu' ils émettent une opinion ou une autre.

L' Analyse Simultanée montre comment les mots qui caractérisent le mieux ceux qui jugent que le mariage est indissoluble sont les mots spécifiques, selon la méthode "VOSPEC" de SPAD, pour cette opinion: marie, suis, avant, on, pour, doit, trop, vie. Ces mots totalisent 30.91% de l' inertie du second axe.

Vu que dans cette opinion la contribution la plus forte est due aux modalités des individus de 26 à 39 ans, les mots cités sont très associés à ce groupe d' âge.

La projection de certains segments lexicaux (ou segments répétés) comme lignes supplémentaires (figures  5 et  6) illustre encore plus le vocabulaire employé par ces individus: le mariage est, on se marie, pour la vie, c' est pour, rester ensemble, est un contrat, je suis, etc. Certains de ces mots, séparément, n' ont pas contribué à la formation des axes. Cependant, les segments cités montrent clairement le contexte linguistique de ceux qui jugent le mariage indissoluble. Les segments mentionnés permettent de reconstruire certaines des réponses de ces individus: "Si on se marie c' est pour rester ensemble", "On se marie pour la vie" ou "C' est pour la vie".

 


Figure 3: Projection des profils-colonnes

Figure 4: Projection des compromis


Figure 5: Projection des segments répétés (I)

 

Figure 6: Projection des segments répétés (II) 

Les mots les plus spécifiques employés par les individus quand ils jugent que le mariage admet la dissolution par consentement mutuel sont: chacun, liberté, les, plus, sans, gens, accord, entend, mieux, ce qui explique 27.81% de l' inertie du second facteur. Parmi les segments employés par ces individus se trouvent: quand on ne s' entend, vivre-ensemble, de se séparer, parce que c' est, faut pas, les gens, etc. Certaines de leurs réponses caractéristiques sont: "Parce que c' est la solution la plus intelligente quand on ne peut plus vivre ensemble", "Parce que quand on ne s' entend, il n' y a rien à faire de mieux que de se séparer, chacun est libre tout de même", "C' est une question de liberté chacun doit pouvoir organiser sa vie de la manière la plus souhaitable", "Si les époux ne s' entendent pas c' est mieux de se séparer d' accord plutôt que de se gacher la vie à deux" et celles qui font référence à la liberté: "Liberté", "Liberté individuelle", "Entière liberté".

Quand les individus jugent possible la dissolution du mariage en cas grave, ils emploient un vocabulaire plus spécifique concrétisé par des mots comme: cas, très, grave, graves, peut, mais, ça, vaut, des, être, qui totalisent 53.54% de l' inertie du premier facteur et les segments les plus répétés sont: il vaut mieux, dans des, des cas, des enfants, cas très, très graves, si il y a, peut être, on ne peut, etc. qui caractérisent des opinions indiquant que le mariage ne doit dissoudre que dans les cas graves: "Tout est revisable. On peut toujours améliorer la situation familiale sauf bien sur cas très graves (adultère)"; notamment quand il existe des enfants: "Si il y a des enfants, c' est très grave de divorcer", "Surtout si il y a des enfants".

De plus, on observe comment les mots ce et sont contribuent à la création du premier facteur, indiquant par là des mots peu utilisés par ceux qui admettent la dissolution du mariage uniquement en cas grave.

Comme on l' a dit, il existe un vocabulaire commun à certains groupes d' âge et de sexe indépendamment de leur opinion sur le mariage. On a aussi des mots qui, bien qu' ils caractérisent plus l' une des opinions, font également partie des réponses des deux autres opinions. Tout cela implique que l' on projette des colonnes éloignées de leurs homologues. Ainsi, par exemple, on observe comment le vocabulaire des femmes de 17-25 ans qui jugent possible la dissolution du mariage en cas grave (1-gr17-25fe) se situe dans le premier quadrant du plan factoriel à mi-chemin entre le vocabulaire employé par ceux qui jugent qu' il est indissoluble et ceux qui admettent la dissolution en cas grave. C' est-à-dire que ces personnes partagent du vocabulaire avec l' opinion d' indissolubilité. Ainsi en va-t-il de mots comme famille, marie, suis, union, tout. De manière analogue on apprécie comment les individus de plus de 60 ans, quand ils jugent que le mariage est indissoluble (4-in60fe et 4-in60ho), utilisent un vocabulaire partagé avec les personnes interrogées qui admettent la dissolution en cas d' accord mutuel ou en cas grave. C' est le cas de mots comme enfants, est, faut, pas, etc.

La projection des profils-lignes partiels permet d' observer la dispersion des mots émis par chaque groupe d' âge par rapport à la projection du mot-compromis correspondant. Ainsi, on peut observer comment les mots caractéristiques employés dans une opinion concrète présentent une faible dispersion par rapport au compromis. Il en va ainsi, par exemple, des chacun, liberté, sans et gens (figure 7), mots utilisés presque exclusivement par les individus qui jugent possible la dissolution du mariage en cas de consentement mutuel. Dans cette figure on observe de plus comment chacun est utilisé uniquement par les individus entre 26 et 59 ans (les projections de 1chacun et 4chacun se trouvent à l' origine) et comment les individus âgés de plus de 60 ans n' emploient pas les termes liberté, sans et gens.

 

Figure 7: Projection des profils-lignes partiels (I)

Sur les plans les profils partiels sont identifiés par le mot précédé du numéro qui indique le tableau (groupe d' âge) auquel il appartient.

La projection des profils-lignes partiels permet de plus d' observer des mots qui sans être considérés caractéristiques, du fait d' une faible contribution, sont, néanmoins, davantage associés à l' une des opinions.

C' est le cas de mots comme cela, contrat, bien (figure 8) plus associés à l' opinion Indissoluble, quoique bien, par exemple, soit également utilisée par les plus jeunes quand ils jugent que le mariage peut être dissous en cas grave.

Des mots comme avec, ensemble, femme, quand, même, séparation (figure 9) sont plus associés à la possibilité de dissolution par consentement mutuel, même si, par exemple, ensemble est également utilisée par les individus de 26 à 39 ans quand ils jugent que le mariage est indissoluble et bien que les personnes de plus de 60 ans emploient femme et même quand ils jugent respectivement que le mariage admet la dissolution en cas grave ou qu' il est indissoluble.

 

Figure 8: Projection des profils-lignes partiels (II)

Figure 9: Projection des profils-lignes partiels (III)

Plus associés à l' opinion de dissolution en cas grave se trouvent enfants, dans, moi, divorcer, vivre (figure 10), quoique à nouveau certains d' entre eux également sont employés quand ils croient le mariage indissoluble; tel est le cas de enfants utilisé par les individus de plus de 60 ans.

Figure 10: Projection des profils-lignes partiels (IV)

Figure 11: Projection des profils-lignes partiels (V)

Enfin, la considération des profils-lignes partiels permet de détecter l' existence de mots ayant une grande dispersion par rapport à leur compromis pour avoir été utilisés par les individus de différents groupes d' âge et de différentes opinions. C' est le cas de mots comme deux, divorce, divorcer, famille, ils, parents, rester, tout, union (figure 11). Rester, par exemple, est employé par les individus de 26 à 39 ans dans le cas de mariage indissoluble; par ceux de plus de 60 ans quand ils jugent que l' on peut dissoudre en cas grave et par ceux de 40 à 59 ans quand ils jugent que le mariage admet la dissolution, dans les deux cas envisagés dans l' enquête.

Jusqu' ici, on a commenté principalement les aspects concrets du vocabulaire spécifique employé par les personnes interrogées dans chacune des opinions sur le mariage. L' Analyse Simultanée permet aussi d' observer un autre type de différences dans l' utilisation du langage, comme ce peut être le cas dans le temps verbal, dans l' utilisation des pluriels ou dans l' emploi différent d' un même mot.

Par exemple, il semble qu' en général l' emploi des verbes à l' infinitif (divorcer, vivre, séparer, être) est plus fréquent quand il s' agit de la dissolution en cas grave que dans les deux autres cas.

De plus, on observe parmi les individus qui jugent que le mariage est dissoluble, soit qu' il le soit seulement en cas grave soit par consentement mutuel, un usage plus important des pluriels (ils, les, des, deux, sont) par rapport aux personnes interrogées qui n' acceptent pas la dissolution du mariage, lesquels usent en priorité du singulier dans leur vocabulaire.

On relèvera également que parmi les individus qui jugent que le mariage peut être dissous, ceux qui sont favorables au consentement mutuel emploient davantage l' adverbe quand: quand on ne s' , quand on ne, quand on ne s' entend, etc., dans les réponses à la question ouverte étudiée, tandis que ceux qui admettent la dissolution en cas grave emploient plus fréquemment le conditionnel si: si il y a, si on ne s' , si on ne, etc.

La projection des segments répétés permet également de vérifier le contexte différent dans lequel un mot peut être employé selon l' opinion. Il existe des mots avec une projection centrale dans le plan et sans contribution à celui-ci, qui prennent de l' importance avec les projections des segments répétés. C' est ce qui se passe, par exemple, avec des mots qui indiquent un vocabulaire en termes négatifs comme n' , ne, pas. En dépit d' être fréquents dans toutes les opinions, ils sont plus utilisés par les individus favorables à la dissolution du mariage (en cas grave ou accord mutuel). Ceci se vérifie avec les projections des segments répétés dans lesquels apparaissent: quand on ne, on ne peut, on ne s' entend pas,... En revanche, ceux qui ne croient pas à la dissolution du mariage emploient un vocabulaire en termes positifs.

Plus caractéristique de l' importance du contexte est le cas de ensemble. Ce mot se projette sur le centre de gravité du second axe mais les segments répétés: rester ensemble et vivre ensemble, ont des positions caractéristiques; tandis que le premier est utilisé par ceux qui jugent que le mariage est indissoluble le second est utilisé par ceux qui se montrent partisans d' une dissolution en cas d'accord mutuel.

Cette différence dans l' emploi de ensemble liée à l' utilisation ou l' absence des termes négatifs confirme le sens des réponses de ceux qui acceptent la dissolution: "C' est pas une vie quand on ne s' entend pas de vivre ensemble", "Tout a fait normal de se séparer si on ne s' entend plus ensemble" et de ceux qui croient à l' indissolubilité du mariage "On se marie pour rester ensemble", "Pour le meilleur et pour le pire on doit rester ensemble".

Le mot enfants est également employé dans des contextes linguistiques différents. Les personnes interrogées favorables à la dissolution en cas d' accord font référence à les enfants: "Parce que c' est mieux pour les enfants", "Pour eviter de faire souffrir les enfants"; alors que le reste justifient leur position en fonction de l' existence d' enfants, il y a des enfants: "Si il y a des enfants, c' est très grave de divorcer" (diss. cas grave), "Si il y a des enfants surtout, c' est trop grave" (indissoluble), "S' il y a des enfants et dans tous les cas on ne peut pas se séparer" (indissoluble).

4.    Conclusions

L' Analyse Simultanée présentée complète la méthodologie classique existante pour le traitement d' un ensemble de tableaux de contingence. Tableaux qui peuvent provenir ou non d' un tableau ternaire, puisqu' elle permet que les colonnes des tableaux soient différentes.

L' Analyse Simultanée permet de maintenir dans un étude conjointe les relations internes à l' intérieur de chaque tableau. Elle devient utile, en particulier, quand il existe des différences dans les totaux, dans les marges-en-ligne ou dans l' intensité de structure entre les tableaux.

L' Analyse Simultanée admet, par ailleurs, l’introduction simultanée de questions ouvertes et fermées ainsi que la possibilité d’analyser conjointement des tableaux de variables de différente nature (continues, qualitatives, de fréquence).

L' Analyse Simultanée permet de compléter l’étude conjointe de tous les tableaux avec une comparaison globale des ceux-ci,  en facilitant l’interprétation des ressemblances et des différences entre les tableaux analysés.

L' application présentée permet de confirmer l' utilité de la méthode dans l' analyse de données textuelles.

L' Analyse Simultanée indique qu' en dépit de l' existence d' un vocabulaire caractéristique pour chacune des opinions sur le mariage, il existe, par ailleurs, à l' intérieur de chacune d' elles un usage différent du langage selon l' âge et le sexe.

L' Analyse Simultanée montre comment les mots qui caractérisent le mieux ceux qui jugent que le mariage est indissoluble sont les mots spécifiques: marie, suis, avant, on, pour, doit, trop, vie et certains segments lexicaux comme: le mariage est, on se marie, pour la vie, c' est pour, rester ensemble, est un contrat, je suis, etc.

Les mots les plus spécifiques employés par les individus quand ils jugent que le mariage admet la dissolution par consentement mutuel sont: chacun, liberté, les, plus, sans, gens, accord, entend, mieux. Parmi les segments employés par ces individus se trouvent: quand on ne s' entend, vivre-ensemble, de se séparer, parce que c' est, faut pas, les gens, etc.

Quand les individus jugent possible la dissolution du mariage en cas grave, ils emploient un vocabulaire plus spécifique concrétisé par des mots comme: cas, très, grave, graves, peut, mais, ça, vaut, des, être et les segments les plus répétés sont: il vaut mieux, dans des, des cas, des enfants, cas très, très graves, si il y a, peut être, on ne peut, etc.

La projection des profils-lignes partiels permet d' observer la dispersion des mots émis par chaque groupe d' âge par rapport à la projection du mot-compromis correspondant; permet de plus d' observer des mots qui sans être considérés caractéristiques sont, néanmoins, davantage associés à l' une des opinions et, enfin, permet de détecter l' existence de mots ayant une grande dispersion par rapport à leur compromis pour avoir été utilisés par les individus de différents groupes d' âge et de différentes opinions.

L' Analyse Simultanée permet aussi d' observer un autre type de différences dans l' utilisation du langage, comme ce peut être le cas dans le temps verbal, dans l' utilisation des pluriels ou dans l' emploi différent d' un même mot.

 

Remerciements

Ce travail a été financé par le projet d' investigation UPV 038.321-HA041/99 de l' Université du Pays Basque (UPV/EHU) et UPV 00038.321-13631/2001 et le projet PB98-0149 de la Direction Génerale de l' Enseignement supérieur et de la Recherche Scientifique du Ministère Espagnol de l' Éducation et de la Culture

 

Références

[BEC 99] BÉCUE-BERTAUT, Mónica. & PAGÈS, Jérôme., Intra-sets multiple factor analysis. Application to textual data. In J.Jansen et al., editors, Proc. of ASMDA’99 (9th International Symposium on Applied Stochastic Models and Data Analysis) pp,51-60, 1999

[BEC 00 a] BÉCUE-BERTAUT, Mónica. & LEBART, Ludovic., Analyse statistique de réponses ouvertes : application à des enquêtes auprès de lycéens, in L’Analyse des correspondances et les techniques connexes. Approches nouvelles pour l’analyse statistique des données, J. Moreau, P.A. Doudin, P. Cazes Ed. pp,60-83, 2000

[BEC 00 b] BÉCUE-BERTAUT, Mónica. & PAGÈS, Jérôme., Analyse factorielle multiple intra-tableaux. Application à l’analyse simultanée de plusieurs questions ouvertes., in ‘JADT 2000: 5 Journées Internationales d’Analyse Statistique des Données Textuelles´, 2000

[BEC 02] BÉCUE-BERTAUT, Mónica. & PAGÈS, Jérôme., Analyse conjointe de questions ouvertes et de questions fermées : méthodologie, exemple., in ‘JADT 2000: 6 Journées Internationales d’Analyse Statistique des Données Textuelles´, 2002

[ESC 84] ESCOFIER, Brigitte & PAGÈS, Jérôme., L’Analyse Factorielle Multiple, Cahiers du Bureau Universitaire de Recherche Opérationnelle, 42, pp,1-48, 1984

[ESC 88] ESCOFIER, Brigitte & PAGÈS, Jérôme., Analyses Factorielles Simples et Multiples. Objetifs, méthodes et interprétation, DUNOD, 1988

[GOI 02] GOITISOLO, Beatriz., El Análisis Simultáneo. Propuesta y Aplicación de un nuevo método de análisis factorial de tablas de contingencia, Tesis Doctoral, Universidad del País Vasco, Bilbao, 2002

[LEB 88] LEBART, Ludovic & SALEM, Andre., Analyse Statistique des Données Textuelles, DUNOD, 1988

[LEB 94] LEBART, Ludovic & SALEM, Andre., Statistique Textuelle, DUNOD, 1994

[LEB 98] LEBART, Ludovic & SALEM, Andre. & BERRY, L., Exploring  Textual Data, Kuwer Academic Publishers, 1998

[LHE 76] L’HERMIER DES PLANTES, H., STATIS : Structuration de Tableaux à Trois Indices de la Statistique, Thèse (3c), USTL, Montpellier, 1976

[ZAR 02] ZÁRRAGA, Amaya & GOITISOLO, Beatriz., Méthode fatorielle pour l’analyse simultanée de tableaux de contingence, Revue de Statistique Appliquée L(2), pp,47-70, 2002

[ZAR 03] ZÁRRAGA, Amaya & GOITISOLO, Beatriz., Étude de la structure inter-tableaux à travers l’ Analyse Simultanée,  Revue de Statistique Appliquée, LI(3), pp,39-60, 2003