Sommaire des JADT 1998

 

ANALYSE SIMULTANÉE DE PLUSIEURS QUESTIONS OUVERTES

 

Mónica María Bécue Bertaut

Departament d’Estadística i Investigació Operativa

Universitat Politècnica de Catalunya

c/ Pau Gargallo, 5 - 08028 Barcelona

 

Résumé

Nous proposons dans ce travail des outils pour l’analyse simultanée des réponses à différentes questions ouvertes ; ces outils permettent de comparer les ensembles de réponses, ce qui enrichit et complète les résultats obtenus lors des analyses séparées.

1. Introduction

Les réponses données à différentes questions ouvertes lors d’une enquête par questionnaire constituent une information riche et complexe qui peut être traitée en suivant diverses approches. On peut analyser séparément chacune des questions. Il est aussi possible de regrouper les réponses et de les analyser comme si une seule question avait été posée. Nous proposons dans ce travail un outil, inspiré des méthodes d’analyse des tables à trois dimensions, qui permet une analyse simultanée des différentes questions, tout en conservant leur individualité ; ce qui enrichit et complète les résultats issus des analyses séparées.

2. Les données

Lors d’une enquête post-électorale, effectuée par le PIOP de l’Université de Louvain-la-Neuve (Belgique) en 1991, on demandait aux enquêtés de répondre à un questionnaire fermé (signalétique et questions de sociologie électorale, principalement) et aux deux questions ouvertes suivantes :

Qu’est ce que c’est pour vous la gauche ?

Qu’est ce que c’est pour vous la droite ?

L’objectif de cette enquête était de mieux connaître ce que les notions de "gauche" et "droite" évoquaient pour les électeurs belges. En effet, les politologues avaient constaté que ces notions, qui restaient des points repère pertinents, n’étaient cependant pas claires pour tous, ni représentatives d’une conception commune (Claeys et Desmarez, 1993).

Comme les exemples de réponses de la figure 1 le montrent, les réponses ouvertes donnent, en ce qui concerne les objectifs de l’enquête, deux types d’information. Selon les répondants, les définitions de la gauche et de la droite sont introduites ou accompagnées par diverses expressions (c’est un parti, les gens qui prônent, un courant d’opinion, etc.) qui traduisent une façon de se positionner face au questionnement politique, ce qui consitue une première information relevante. Puis, après cette introduction, on trouve la partie de la définition qui exprime les notions et thèmes différents associés, respectivement, à la gauche et à la droite, et qui, souvent, traduit une opinion favorable ou défavorable.

 

Figure 1. Exemples de couples de réponses

Dans ce travail, nous choisissons d’étudier l’évolution différentielle du vocabulaire avec l’âge dans les deux ensembles de réponses. Nous utiliserons ici seulement les 1425 questionnaires collectés en Wallonie en langue française.

3. Méthodologie

3.1 Tables analysées

A chaque question, on associe le vocabulaire des mots employés dans les réponses correspondantes. De cette façon, l’information donnée par les réponses ouvertes se traduit par une séquence de tables lexicales croisant les individus avec chacun des vocabulaires. Les individus peuvent être regroupés en catégories, selon leurs caractéristiques ; on obtient alors une séquence de tables lexicales agrégées, croisant les catégories avec chacun des vocabulaires (figure 2). Nous nous limiterons à l’analyse des deux tables lexicales agrégées, correspondant aux deux questions, obtenues en regroupant les individus en 6 catégories selon la classe d’âge du répondant.

 

 

 

 

 

 

 

Figure 2. Tables juxtaposées

3.2 Traitements effectués

Après avoir identifié les différents mots utilisés pour répondre aux deux questions, et calculé leur fréquence, on mettra en évidence les mots qui caractérisent chacune des deux questions, ainsi que les mots communs (paragraphe 4). Ensuite, séparément pour chacune des questions, on étudiera l’évolution du langage en fonction de l’âge des individus (paragraphe 5). Finalement, ces évolutions seront comparées et caractérisées au moyen d’une analyse simultanée des tables lexicales agrégées correspondantes. Cette analyse comprend deux étapes : a) analyse de la somme des deux tables ; b) analyse des deux tables juxtaposées, en prenant comme dimension commune les catégories (paragraphe 6).

4. Le vocabulaire des questions

Comme il a été noté plus haut, une partie du vocabulaire employé par les répondants traduit quelles sont leurs références politiques (partis, gens qui, etc.) et n’a pas un emploi différencié dans les deux ensembles de réponses. Par contre, il existe des mots suremployés pour répondre à la question sur la gauche et d’autres pour répondre à la question sur la droite. Ceci nous permet de classer les mots en mots de la gauche, mots de la droite et mots communs. Cette dernière catégorie de mots englobe à la fois, évidemment, les mots outils employés dans des circonstances très diverses et les référents politiques généraux.

La figure 3 montre les mots appartenant à chacune des classes. Entre parenthèses, on peut trouver la fréquence du mot dans la première réponse (définition de la gauche), la fréquence dans la deuxième réponse (définition de la droite) puis, finalement, la valeur-test (Lebart et Salem, 1994) qui mesure le pouvoir de caractérisation du mot. Ce dernier nombre n’est pas indiqué pour les mots communs ; il est, dans ce cas, toujours inférieur à 2 en valeur absolue. Seuls les mots employés avec une fréquence au moins égale à 15 pour répondre à l’une des questions sont cités. On peut noter que partis est un mot commun, tandis que parti est un mot caractéristique de la gauche ; ce mot est très employé dans les expressions le parti communiste et le parti socialiste, tandis que les partis de droite sont davantage cités par leurs initiales (PSC ; PRL, par exemple).

5. Analyses séparées des deux questions

Pour construire chacune des deux tables agrégées correspondant aux deux questions, on regroupe les réponses en six classes, selon l’âge des répondants (18-24, 25-34, 35-44, 45-54, 55-64, 65 ans et plus). Seuls les mots prononcés au moins 15 fois sont conservés.

5.1 Analyse des réponses à la question sur la gauche

Pour la gauche, 110 mots sont conservés. L’inertie totale de la table vaut 0.0856. Les deux premiers axes, auxquels correspondent des valeurs propres égales à 0.0304 et 0.0200, conservent, respectivement, 36% et 23% de l’inertie totale. Sur le premier axe, on retrouve les classes d’âge ordonnées de droite à gauche, exceptée la classe la plus jeune qui présente une coordonnée décalée vers le centre. De fait, cette classe d’âge n’est aucunement représentée sur ce premier axe et détermine elle seule le deuxième. Il faut noter que, en ce qui concerne les mots, moins a une contribution de 14% à ce deuxième axe, alors qu’il est à plus de 2.5 écarts-type du centre de gravité. Cela indique une certaine fragilité des résultats obtenus. Il serait possible de déclarer ce mot comme élément supplémentaire, pour réinitier l’analyse. Mais justement, comme on le verra, ce problème est très largement aminoré par l’étude simultanée des deux questions. Pour cette raison, et pour disposer de l’ensemble du vocabulaire, les résultats seront alors plus nets et plus faciles à interpréter. On se limite ici à noter quelques traits marquants dans cette première analyse.

 

Les mots de la gauche

classe (54, 29, +2.03), communisme (80, 2, +9.01), communiste (49, 1, +7.03), communistes (58, 4, +6.83), défendre (15, 4, +2.05), du (117, 71, +2.37), égalité (23, 1, +4.37), fait (32, 13, +2.26), gauche (119, 52, +6.52), moi (26, 10, +2.13), n (75, 39, +2.58), ouvrier (70, 2, +8.32), ouvrière (49, 4, +6.07), ouvriers (81, 10, +7.21), parti (214, 110, +4.58), peuple (40, 2, +5.85), proche (25, 6, +2.96), social (113, 28, + 6.54), sociale (31, 9, +2.98), socialisme (67, 2, +8.10), socialiste (91, 8, 8.28), socialistes (106, 7, +9.42), solidarité (33, 4, +4.49), tout (118, 61, +3.32), travailleurs (41, 4, +5.32), PS (33, 4, +3.13), rien (76, 40, +2.55)

Les mots de la droite

argent (5, 47, +6.55), capital (4, 21, +3.65), capitalisme (6, 25, +3.70), capitaliste (5, 17, +2.71), catholique (4, 41, +6.18), catholiques (4, 53, +7.37), ceux (30, 45, +2.22), chacun (5, 24, +3.82), chrétien (3, 17, +3.32), chrétiens (4, 17, +3.00), conservateur (3, 15, +2.96), conservateurs (4, 15, +2.64), contraire (8, 18, +2.13), droite (60, 181, +9.00), économique (6, 18, +2.61), entreprise (1, 25, +5.26), entreprises (1, 16, +3.91), extrême (35, 86, +5.37), extrémistes (12, 30, +3.10), front (0, 17, 4.59), idem (1, 30, +5.90), indépendants (2, 26, +5.01), individu (5, 19, +3.05), l (186, 219, +3.00), libéral (1, 34, +6.37), libéralisme (0, 21, +5.19), libéraux (4, 32, +5.16), liberté (10, 26, +2.91), libre (1, 28, +5.65), national (0, 16, +4.42), patrons (1, 18, +4.24), Pen (5, 18, +2.88), plus (170, 193, +2.48), pouvoir (13, 42, +4.37), PRL (1, 48, +7.81), problèmes (5, 14, +7.81), profit (2, 14, +3.13), PSC (6, 70, +8.37), racisme (2, 24, +4.74), riches (2, 24, +4.74), soi (3, 15, +2.96), sur (27, 41, +2.15), valeurs (5, 16, +2.53)

Les mots communs aux deux questions

= (14,15), a (215,168), au (62,43), aucune (27,17), aussi (9,17), autres (18,23), aux (43,28), avec (17,21), bien (39,21), c (168,136), ça (30,24), ce (140,104), cela (29,17), chose (13, 15), classes (19, 23), comme (21, 20), contre (18, 7), côté (18, 12), d (88, 84), dans (56, 32), de (337, 290), défend (23, 15), défendent (19, 13), défense (22, 13), des (205, 172), dire (23, 12), droits (15, 5), est (263, 198), et (135, 125), état (17, 6), être (34, 22), gens (84, 77), idée (45, 24), idées (26,24), il (37, 29), ils (41, 34), intérêts (20, 12), je (150, 123), la (345, 297), le (357, 346), les (430,391), leurs (13,15), m (20, 12), mais (42, 47), me (16,1), même (20, 15), moins (31, 23), monde (21, 8), ne (201, 154), non (35, 31), occupe (15, 8), on (51, 31), ont (20, 31), opposition (16, 9), ou (31, 34), par (32, 35), partis (73, 84), pas (275, 227), pense (24, 16) peu (14, 16), plutôt (48, 47), politique (63, 37), pour (126, 116), qu (24, 21), que (84, 68), qui (283, 207), s (31, 22), sais (105, 87), sait (32, 31), se (44, 29), sociales (18, 9), sociaux (18, 10), société (21, 19), sont (92, 74), tendance (19, 16), tous (26, 19), une (60, 48), vers (25, 20), veut (16, 7), y (29, 18)

 

Figure 3. Mots classés selon leur pouvoir de caractérisation

On observe une progression assez régulière du vocabulaire avec l’âge pour les plus de 25 ans, mais une coupure brutale entre le langage employé par les moins de 25 ans et celui employé par les autres classes. Notons que les plus jeunes ont un vocabulaire de type moral (solidarité, proche du peuple) ou vague (moins, vers). Et lorsqu’ils emploient des termes propres de la politique (le communisme, le socialisme), ils le font sous forme de référence à des idéologies et de façon abstraite. Pour les autres classes d’âge, les connotations politiques deviennent plus nettes. A droite du premier axe (qui correspond à l’extrémité "jeune"), on trouve surtout des termes très génériques comme intérêts, classes, idées, côté social. Vers le centre les mots opposition, communiste et partis apparaissent. Finalement, à l’extrémité gauche, ouvrier, classe ouvrière, ouvriers, parti, défend, défense, pour, contre, etc. montrent que les classes plus âgées identifient davantage la gauche avec la défense de la classe ouvrière et aussi avec les partis de gauche.

5.2 Analyse des réponses à la question sur la droite

Dans cette deuxième analyse, 115 mots sont conservés. L’inertie totale de la table vaut 0.1223. Les deux premiers axes, auxquels correspondent des valeurs propres égales à 0.0383 et 0.0265, conservent, respectivement, 31% et 22% de l’inertie totale. Cette deuxième table présente donc une plus grande inertie que la table correspondant à la gauche, mais une moindre structure.

Sur le premier axe, on retrouve les classes d’âge ordonnées (de gauche à droite, mais l’orientation des axes n’a aucune signification), sans interversion (notons néanmoins que les classes 35-44 ans et 45-54 ans ont exactement la même coordonnée sur cet axe). Le deuxième axe oppose les deux classes d’âge les plus jeunes aux 35-44 ans. De même dans cette deuxième analyse, certains mots présentent une influence très marquée (la contribution de catholiques est de 15% pour le premier axe, de plus de 7.7% sur le deuxième axe).

6. Analyse conjointe des réponses aux deux questions

6.1 Analyse globale des deux questions

L’analyse globale des réponses aux deux questions est l’analyse de la table-somme qui contient la fréquence des différents mots dans chacune des classes d’âge, les deux questions confondues. Il s’agit donc de l’analyse du nuage des points moyens des classes d’âge, c’est-à-dire de la structure inter-âges. Positionner ensuite les classes d’âge des deux tableaux en éléments supplémentaires permet d’étudier, dans une certaine mesure, l´écart entre les profils des classes d’âge homologues des deux tables et le profil moyen correspondant. La figure 4 résume le plan principal. Les initiales G et D indiquent la position des classes d’âge supplémentaires correspondant, respectivement, aux questions sur la gauche et sur la droite.

L’inertie totale de la table-somme (inertie inter-âges) vaut 0.092. Les deux premiers axes, avec des valeurs propres égales à 0.0312 et 0.0214, conservent, respectivement, 31% et 22% de cette inertie. Il ne faut pas oublier que les métriques ne sont pas les mêmes que dans les analyses antérieures.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Figure 4. Plan principal de l’analyse de la table somme

Sur le premier axe, on retrouve les classes d’âge ordonnées de la gauche vers la droite, sans aucune interversion. Le deuxième facteur oppose les plus jeunes, 18-24 ans, à la classe d’âge 45-54 ans.

 

Quant au vocabulaire, sur le premier axe celui-ci est d’abord (extrémité gauche de l’axe) assez peu typé (côté social, entreprise(s), proche du peuple, chacun pour soi, racistes, etc) puis évolue vers le vocabulaire des partis et des militants de droite ou de gauche (les communistes, les socialistes, les catholiques, la classe ouvrière, ceux qui défendent, ceux qui sont pour, ceux qui sont contre, le parti qui défend, etc.) à l’extrémité droite de l’axe. Le deuxième axe oppose, à son extrémité négative, des mots plus propres au langage moral qu'au langage politique (par exemple, solidarité, proche du peuple, chacun pour soi, racisme, et racistes) et, à son extrémité positive, un vocabulaire assez général mais se référant au système politique et à son fonctionnement (pouvoir, opposition, en particulier le parti communiste, le capital, les patrons, etc.). A l’extrémité négative de ce deuxième axe, proches des mots du langage moral, on trouve aussi des mots comme libéralisme, communisme, socialisme, référents politiques mais qui soulignent l’aspect idéologique des grandes options politiques.

Cette analyse globale offre des axes plus robustes que les analyses séparées. On peut constater qu’aucun mot n’exerce une influence démesurée sur la détermination des axes. L’interprétation des résultats est facilitée par l’utilisation de l’ensemble des mots. Le positionnement des lignes-catégories d’âge des tables "Question sur la gauche" et "Question sur la droite" en supplémentaires permet une première approche de la différence entre les trajectoires des classes d’âge selon la question. Sur ce plan, les trajectoires correspondantes semblent très semblables entre elles, et donc aussi semblables à la trajectoire moyenne obtenue par l’analyse globale. On peut donc conclure que la somme représente bien une structure commune forte. Il peut néanmoins exister aussi une grande différence entre les tables qui soit mal représentée sur ce plan. La méthode proposée au paragraphe suivant permet de mieux mettre en relief les différences entre catégories d’âge homologues.

 

6.2 Analyse des deux tables juxtaposées

Il est possible de juxtaposer les tables lexicales agrégées correspondant aux réponses à la première et à la deuxième questions. L’analyse de la table juxtaposée, qui comprend 225 colonnes (le vocabulaire de la gauche, suivi du vocabulaire de la droite ; les deux vocabulaires demeurent différentiés) et 6 lignes (les classes d’âge) offrira une vision plus affinée de l’écart entre les tables. Sur les plans principaux, un "1" ou un "2" devant le mot permettra de savoir en réponse à quelle question le mot a été prononcé. Quand les sous-nuages présentent des centres de gravité très éloignés, il est conseillé de recentrer chaque sous-nuage sur son centre de gravité, et d’analyser simultanément les écarts aux modèles d’indépendance déterminés séparément pour chacun d’eux (Escofier et Pagès, 1993).

 

L’analyse de correspondances de la table juxtaposée permet de décrire les catégories d’âge (les différences entre les catégories d’âge) tant par les mots qu’elles emploient pour parler de la gauche que par les mots utilisés pour parler de la droite, tout en conservant la différenciation des deux vocabulaires. L’inertie totale de la table vaut 0.1028. Les deux premiers axes, auxquels correspondent des valeurs propres égales à 0.0335 et 0.0213, conservent, respectivement, 33% et 21% de l’inertie totale. Ces axes peuvent être considérés comme des axes de compromis entre ceux issus des analyses de chacun des sous-nuages.

 

Le plan principal est reproduit figure 5. Les distances entre les catégories d’âge sont calculées à partir des 225 mots. On retrouve les classes d’âge ordonnées sur le premier axe, sans aucune interversion ; le deuxième axe oppose les 18-24 ans aux 35-44 et surtout aux 45-54 ans. On obtient donc une configuration des catégories sur le plan principal très voisine de celle obtenue lors de l’analyse de la table somme. L’interprétation donnée par les oppositions entre mots est aussi voisine de l’analyse antérieure ; elle est plus nuancée car certains mots (par exemple, classes ou social) ont un emploi différencié selon les questions (ils sont très éloignés sur le plan principal), et elle est facilitée par le fait que l’on peut identifier la question pour laquelle le mot est employé.

 

Dans ce cas aussi, on peut employer la technique des éléments supplémentaires pour représenter les catégories d’âge selon leur réponse à la seule question sur la gauche, ou à la seule question sur la droite. Les différences entre catégories homologues sont beaucoup plus visibles que lors de l’analyse globale. De fait, on retrouve des traits remarqués lors des analyses séparées : les 25-34 ans sont assez proches des 18-24 ans quand ils parlent de la droite (peu de mots politiques pour parler de la droite, plutôt des mots idéologiques) et assez proches de 35-44 ans lorsqu’ils parlent de la gauche (langage du fonctionnement du jeu politique). La qualité des résultats peut être évaluée au moyen d’indicateurs comme les corrélations entre les axes de compromis et les axes des analyses séparées des sous-nuages, la contribution à l’inertie de chacun de ces sous-nuages ou leur qualité de représentation.

 

 

Figure 5. Plan principal de l’analyse de la table juxtaposée

 

 

7. Conclusion

L’analyse des tables juxtaposées constitue une synthèse des analyses séparées ; l’interprétation des résultats est facilitée par l’approche globale du fonctionnement du vocabulaire. Cette analyse facilite la comparaison des catégories homologues, et plus généralement des structures globales, en fonction des réponses fournies à chacune des questions. Cette analyse n’a de sens que lorsqu'il existe une structure commune forte, et que les sous-nuages apportent des contributions similaires à la détermination des axes, sinon les résultats obtenus ne sont que des artefacts.

 

Références

Claeys, P.H., Demarez, P. (1994). L’électorat francophone et l’axe gauche-droite. In Frognier A. P. et Aish-Van Vaerenbergh A. M. (eds.). Élections : la fêlure ? Enquête sur le comportement électoral des wallons et des francophones. Bruxelles : De Boeck-Université, pp. 127-147.

Escofier, B., Pagès, J. (1993). Analyses factorielles simples et multiples ; objectifs, méthodes et interprétation. Paris : Dunod.

Lebart, L., Morineau, A., Bécue, M. (1988). SPAD.T, Système Portable pour l'Analyse des Données Textuelles. Saint Mandé : CISIA.

Lebart, L., Salem, A. (1994). Statistique Textuelle. Paris : Dunod.

Sommaire des JADT 1998