ANALYSE SIMULTANÉE DE PLUSIEURS QUESTIONS OUVERTES
Mónica María Bécue Bertaut
Departament dEstadística i Investigació Operativa
Universitat Politècnica de Catalunya
c/ Pau Gargallo, 5 - 08028 Barcelona
Résumé
Nous proposons dans ce travail des outils pour lanalyse simultanée des réponses à différentes questions ouvertes ; ces outils permettent de comparer les ensembles de réponses, ce qui enrichit et complète les résultats obtenus lors des analyses séparées.
1. Introduction
Les réponses données à différentes questions ouvertes lors dune enquête par questionnaire constituent une information riche et complexe qui peut être traitée en suivant diverses approches. On peut analyser séparément chacune des questions. Il est aussi possible de regrouper les réponses et de les analyser comme si une seule question avait été posée. Nous proposons dans ce travail un outil, inspiré des méthodes danalyse des tables à trois dimensions, qui permet une analyse simultanée des différentes questions, tout en conservant leur individualité ; ce qui enrichit et complète les résultats issus des analyses séparées.
2. Les données
Lors dune enquête post-électorale, effectuée par le PIOP de lUniversité de Louvain-la-Neuve (Belgique) en 1991, on demandait aux enquêtés de répondre à un questionnaire fermé (signalétique et questions de sociologie électorale, principalement) et aux deux questions ouvertes suivantes :
Quest ce que cest pour vous la gauche ?
Quest ce que cest pour vous la droite ?
Lobjectif de cette enquête était de mieux connaître ce que les notions de "gauche" et "droite" évoquaient pour les électeurs belges. En effet, les politologues avaient constaté que ces notions, qui restaient des points repère pertinents, nétaient cependant pas claires pour tous, ni représentatives dune conception commune (Claeys et Desmarez, 1993).
Comme les exemples de réponses de la figure 1 le montrent, les réponses ouvertes donnent, en ce qui concerne les objectifs de lenquête, deux types dinformation. Selon les répondants, les définitions de la gauche et de la droite sont introduites ou accompagnées par diverses expressions (cest un parti, les gens qui prônent, un courant dopinion, etc.) qui traduisent une façon de se positionner face au questionnement politique, ce qui consitue une première information relevante. Puis, après cette introduction, on trouve la partie de la définition qui exprime les notions et thèmes différents associés, respectivement, à la gauche et à la droite, et qui, souvent, traduit une opinion favorable ou défavorable.
Figure 1. Exemples de couples de réponses
Dans ce travail, nous choisissons détudier lévolution différentielle du vocabulaire avec lâge dans les deux ensembles de réponses. Nous utiliserons ici seulement les 1425 questionnaires collectés en Wallonie en langue française.
3. Méthodologie
3.1 Tables analysées
A chaque question, on associe le vocabulaire des mots employés dans les réponses correspondantes. De cette façon, linformation donnée par les réponses ouvertes se traduit par une séquence de tables lexicales croisant les individus avec chacun des vocabulaires. Les individus peuvent être regroupés en catégories, selon leurs caractéristiques ; on obtient alors une séquence de tables lexicales agrégées, croisant les catégories avec chacun des vocabulaires (figure 2). Nous nous limiterons à lanalyse des deux tables lexicales agrégées, correspondant aux deux questions, obtenues en regroupant les individus en 6 catégories selon la classe dâge du répondant.
Figure 2. Tables juxtaposées
3.2 Traitements effectués
Après avoir identifié les différents mots utilisés pour répondre aux deux questions, et calculé leur fréquence, on mettra en évidence les mots qui caractérisent chacune des deux questions, ainsi que les mots communs (paragraphe 4). Ensuite, séparément pour chacune des questions, on étudiera lévolution du langage en fonction de lâge des individus (paragraphe 5). Finalement, ces évolutions seront comparées et caractérisées au moyen dune analyse simultanée des tables lexicales agrégées correspondantes. Cette analyse comprend deux étapes : a) analyse de la somme des deux tables ; b) analyse des deux tables juxtaposées, en prenant comme dimension commune les catégories (paragraphe 6).
4. Le vocabulaire des questions
Comme il a été noté plus haut, une partie du vocabulaire employé par les répondants traduit quelles sont leurs références politiques (partis, gens qui, etc.) et na pas un emploi différencié dans les deux ensembles de réponses. Par contre, il existe des mots suremployés pour répondre à la question sur la gauche et dautres pour répondre à la question sur la droite. Ceci nous permet de classer les mots en mots de la gauche, mots de la droite et mots communs. Cette dernière catégorie de mots englobe à la fois, évidemment, les mots outils employés dans des circonstances très diverses et les référents politiques généraux.
La figure 3 montre les mots appartenant à chacune des classes. Entre parenthèses, on peut trouver la fréquence du mot dans la première réponse (définition de la gauche), la fréquence dans la deuxième réponse (définition de la droite) puis, finalement, la valeur-test (Lebart et Salem, 1994) qui mesure le pouvoir de caractérisation du mot. Ce dernier nombre nest pas indiqué pour les mots communs ; il est, dans ce cas, toujours inférieur à 2 en valeur absolue. Seuls les mots employés avec une fréquence au moins égale à 15 pour répondre à lune des questions sont cités. On peut noter que partis est un mot commun, tandis que parti est un mot caractéristique de la gauche ; ce mot est très employé dans les expressions le parti communiste et le parti socialiste, tandis que les partis de droite sont davantage cités par leurs initiales (PSC ; PRL, par exemple).
5. Analyses séparées des deux questions
Pour construire chacune des deux tables agrégées correspondant aux deux questions, on regroupe les réponses en six classes, selon lâge des répondants (18-24, 25-34, 35-44, 45-54, 55-64, 65 ans et plus). Seuls les mots prononcés au moins 15 fois sont conservés.
5.1 Analyse des réponses à la question sur la gauche
Pour la gauche, 110 mots sont conservés. Linertie totale de la table vaut 0.0856. Les deux premiers axes, auxquels correspondent des valeurs propres égales à 0.0304 et 0.0200, conservent, respectivement, 36% et 23% de linertie totale. Sur le premier axe, on retrouve les classes dâge ordonnées de droite à gauche, exceptée la classe la plus jeune qui présente une coordonnée décalée vers le centre. De fait, cette classe dâge nest aucunement représentée sur ce premier axe et détermine elle seule le deuxième. Il faut noter que, en ce qui concerne les mots, moins a une contribution de 14% à ce deuxième axe, alors quil est à plus de 2.5 écarts-type du centre de gravité. Cela indique une certaine fragilité des résultats obtenus. Il serait possible de déclarer ce mot comme élément supplémentaire, pour réinitier lanalyse. Mais justement, comme on le verra, ce problème est très largement aminoré par létude simultanée des deux questions. Pour cette raison, et pour disposer de lensemble du vocabulaire, les résultats seront alors plus nets et plus faciles à interpréter. On se limite ici à noter quelques traits marquants dans cette première analyse.
Les mots de la gauche
classe (54, 29, +2.03), communisme (80, 2, +9.01), communiste (49, 1, +7.03), communistes (58, 4, +6.83), défendre (15, 4, +2.05), du (117, 71, +2.37), égalité (23, 1, +4.37), fait (32, 13, +2.26), gauche (119, 52, +6.52), moi (26, 10, +2.13), n (75, 39, +2.58), ouvrier (70, 2, +8.32), ouvrière (49, 4, +6.07), ouvriers (81, 10, +7.21), parti (214, 110, +4.58), peuple (40, 2, +5.85), proche (25, 6, +2.96), social (113, 28, + 6.54), sociale (31, 9, +2.98), socialisme (67, 2, +8.10), socialiste (91, 8, 8.28), socialistes (106, 7, +9.42), solidarité (33, 4, +4.49), tout (118, 61, +3.32), travailleurs (41, 4, +5.32), PS (33, 4, +3.13), rien (76, 40, +2.55)
Les mots de la droite
argent (5, 47, +6.55), capital (4, 21, +3.65), capitalisme (6, 25, +3.70), capitaliste (5, 17, +2.71), catholique (4, 41, +6.18), catholiques (4, 53, +7.37), ceux (30, 45, +2.22), chacun (5, 24, +3.82), chrétien (3, 17, +3.32), chrétiens (4, 17, +3.00), conservateur (3, 15, +2.96), conservateurs (4, 15, +2.64), contraire (8, 18, +2.13), droite (60, 181, +9.00), économique (6, 18, +2.61), entreprise (1, 25, +5.26), entreprises (1, 16, +3.91), extrême (35, 86, +5.37), extrémistes (12, 30, +3.10), front (0, 17, 4.59), idem (1, 30, +5.90), indépendants (2, 26, +5.01), individu (5, 19, +3.05), l (186, 219, +3.00), libéral (1, 34, +6.37), libéralisme (0, 21, +5.19), libéraux (4, 32, +5.16), liberté (10, 26, +2.91), libre (1, 28, +5.65), national (0, 16, +4.42), patrons (1, 18, +4.24), Pen (5, 18, +2.88), plus (170, 193, +2.48), pouvoir (13, 42, +4.37), PRL (1, 48, +7.81), problèmes (5, 14, +7.81), profit (2, 14, +3.13), PSC (6, 70, +8.37), racisme (2, 24, +4.74), riches (2, 24, +4.74), soi (3, 15, +2.96), sur (27, 41, +2.15), valeurs (5, 16, +2.53)
Les mots communs aux deux questions
= (14,15), a (215,168), au (62,43), aucune (27,17), aussi (9,17), autres (18,23), aux (43,28), avec (17,21), bien (39,21), c (168,136), ça (30,24), ce (140,104), cela (29,17), chose (13, 15), classes (19, 23), comme (21, 20), contre (18, 7), côté (18, 12), d (88, 84), dans (56, 32), de (337, 290), défend (23, 15), défendent (19, 13), défense (22, 13), des (205, 172), dire (23, 12), droits (15, 5), est (263, 198), et (135, 125), état (17, 6), être (34, 22), gens (84, 77), idée (45, 24), idées (26,24), il (37, 29), ils (41, 34), intérêts (20, 12), je (150, 123), la (345, 297), le (357, 346), les (430,391), leurs (13,15), m (20, 12), mais (42, 47), me (16,1), même (20, 15), moins (31, 23), monde (21, 8), ne (201, 154), non (35, 31), occupe (15, 8), on (51, 31), ont (20, 31), opposition (16, 9), ou (31, 34), par (32, 35), partis (73, 84), pas (275, 227), pense (24, 16) peu (14, 16), plutôt (48, 47), politique (63, 37), pour (126, 116), qu (24, 21), que (84, 68), qui (283, 207), s (31, 22), sais (105, 87), sait (32, 31), se (44, 29), sociales (18, 9), sociaux (18, 10), société (21, 19), sont (92, 74), tendance (19, 16), tous (26, 19), une (60, 48), vers (25, 20), veut (16, 7), y (29, 18)
Figure 3. Mots classés selon leur pouvoir de caractérisation
On observe une progression assez régulière du vocabulaire avec lâge pour les plus de 25 ans, mais une coupure brutale entre le langage employé par les moins de 25 ans et celui employé par les autres classes. Notons que les plus jeunes ont un vocabulaire de type moral (solidarité, proche du peuple) ou vague (moins, vers). Et lorsquils emploient des termes propres de la politique (le communisme, le socialisme), ils le font sous forme de référence à des idéologies et de façon abstraite. Pour les autres classes dâge, les connotations politiques deviennent plus nettes. A droite du premier axe (qui correspond à lextrémité "jeune"), on trouve surtout des termes très génériques comme intérêts, classes, idées, côté social. Vers le centre les mots opposition, communiste et partis apparaissent. Finalement, à lextrémité gauche, ouvrier, classe ouvrière, ouvriers, parti, défend, défense, pour, contre, etc. montrent que les classes plus âgées identifient davantage la gauche avec la défense de la classe ouvrière et aussi avec les partis de gauche.
5.2 Analyse des réponses à la question sur la droite
Dans cette deuxième analyse, 115 mots sont conservés. Linertie totale de la table vaut 0.1223. Les deux premiers axes, auxquels correspondent des valeurs propres égales à 0.0383 et 0.0265, conservent, respectivement, 31% et 22% de linertie totale. Cette deuxième table présente donc une plus grande inertie que la table correspondant à la gauche, mais une moindre structure.
Sur le premier axe, on retrouve les classes dâge ordonnées (de gauche à droite, mais lorientation des axes na aucune signification), sans interversion (notons néanmoins que les classes 35-44 ans et 45-54 ans ont exactement la même coordonnée sur cet axe). Le deuxième axe oppose les deux classes dâge les plus jeunes aux 35-44 ans. De même dans cette deuxième analyse, certains mots présentent une influence très marquée (la contribution de catholiques est de 15% pour le premier axe, de plus de 7.7% sur le deuxième axe).
6. Analyse conjointe des réponses aux deux questions
6.1 Analyse globale des deux questions
Lanalyse globale des réponses aux deux questions est lanalyse de la table-somme qui contient la fréquence des différents mots dans chacune des classes dâge, les deux questions confondues. Il sagit donc de lanalyse du nuage des points moyens des classes dâge, cest-à-dire de la structure inter-âges. Positionner ensuite les classes dâge des deux tableaux en éléments supplémentaires permet détudier, dans une certaine mesure, l´écart entre les profils des classes dâge homologues des deux tables et le profil moyen correspondant. La figure 4 résume le plan principal. Les initiales G et D indiquent la position des classes dâge supplémentaires correspondant, respectivement, aux questions sur la gauche et sur la droite.
Linertie totale de la table-somme (inertie inter-âges) vaut 0.092. Les deux premiers axes, avec des valeurs propres égales à 0.0312 et 0.0214, conservent, respectivement, 31% et 22% de cette inertie. Il ne faut pas oublier que les métriques ne sont pas les mêmes que dans les analyses antérieures.
Figure 4. Plan principal de lanalyse de la table somme
Sur le premier axe, on retrouve les classes dâge ordonnées de la gauche vers la droite, sans aucune interversion. Le deuxième facteur oppose les plus jeunes, 18-24 ans, à la classe dâge 45-54 ans.
Quant au vocabulaire, sur le premier axe celui-ci est dabord (extrémité gauche de laxe) assez peu typé (côté social, entreprise(s), proche du peuple, chacun pour soi, racistes, etc) puis évolue vers le vocabulaire des partis et des militants de droite ou de gauche (les communistes, les socialistes, les catholiques, la classe ouvrière, ceux qui défendent, ceux qui sont pour, ceux qui sont contre, le parti qui défend, etc.) à lextrémité droite de laxe. Le deuxième axe oppose, à son extrémité négative, des mots plus propres au langage moral qu'au langage politique (par exemple, solidarité, proche du peuple, chacun pour soi, racisme, et racistes) et, à son extrémité positive, un vocabulaire assez général mais se référant au système politique et à son fonctionnement (pouvoir, opposition, en particulier le parti communiste, le capital, les patrons, etc.). A lextrémité négative de ce deuxième axe, proches des mots du langage moral, on trouve aussi des mots comme libéralisme, communisme, socialisme, référents politiques mais qui soulignent laspect idéologique des grandes options politiques.
Cette analyse globale offre des axes plus robustes que les analyses séparées. On peut constater quaucun mot nexerce une influence démesurée sur la détermination des axes. Linterprétation des résultats est facilitée par lutilisation de lensemble des mots. Le positionnement des lignes-catégories dâge des tables "Question sur la gauche" et "Question sur la droite" en supplémentaires permet une première approche de la différence entre les trajectoires des classes dâge selon la question. Sur ce plan, les trajectoires correspondantes semblent très semblables entre elles, et donc aussi semblables à la trajectoire moyenne obtenue par lanalyse globale. On peut donc conclure que la somme représente bien une structure commune forte. Il peut néanmoins exister aussi une grande différence entre les tables qui soit mal représentée sur ce plan. La méthode proposée au paragraphe suivant permet de mieux mettre en relief les différences entre catégories dâge homologues.
6.2 Analyse des deux tables juxtaposées
Il est possible de juxtaposer les tables lexicales agrégées correspondant aux réponses à la première et à la deuxième questions. Lanalyse de la table juxtaposée, qui comprend 225 colonnes (le vocabulaire de la gauche, suivi du vocabulaire de la droite ; les deux vocabulaires demeurent différentiés) et 6 lignes (les classes dâge) offrira une vision plus affinée de lécart entre les tables. Sur les plans principaux, un "1" ou un "2" devant le mot permettra de savoir en réponse à quelle question le mot a été prononcé. Quand les sous-nuages présentent des centres de gravité très éloignés, il est conseillé de recentrer chaque sous-nuage sur son centre de gravité, et danalyser simultanément les écarts aux modèles dindépendance déterminés séparément pour chacun deux (Escofier et Pagès, 1993).
Lanalyse de correspondances de la table juxtaposée permet de décrire les catégories dâge (les différences entre les catégories dâge) tant par les mots quelles emploient pour parler de la gauche que par les mots utilisés pour parler de la droite, tout en conservant la différenciation des deux vocabulaires. Linertie totale de la table vaut 0.1028. Les deux premiers axes, auxquels correspondent des valeurs propres égales à 0.0335 et 0.0213, conservent, respectivement, 33% et 21% de linertie totale. Ces axes peuvent être considérés comme des axes de compromis entre ceux issus des analyses de chacun des sous-nuages.
Le plan principal est reproduit figure 5. Les distances entre les catégories dâge sont calculées à partir des 225 mots. On retrouve les classes dâge ordonnées sur le premier axe, sans aucune interversion ; le deuxième axe oppose les 18-24 ans aux 35-44 et surtout aux 45-54 ans. On obtient donc une configuration des catégories sur le plan principal très voisine de celle obtenue lors de lanalyse de la table somme. Linterprétation donnée par les oppositions entre mots est aussi voisine de lanalyse antérieure ; elle est plus nuancée car certains mots (par exemple, classes ou social) ont un emploi différencié selon les questions (ils sont très éloignés sur le plan principal), et elle est facilitée par le fait que lon peut identifier la question pour laquelle le mot est employé.
Dans ce cas aussi, on peut employer la technique des éléments supplémentaires pour représenter les catégories dâge selon leur réponse à la seule question sur la gauche, ou à la seule question sur la droite. Les différences entre catégories homologues sont beaucoup plus visibles que lors de lanalyse globale. De fait, on retrouve des traits remarqués lors des analyses séparées : les 25-34 ans sont assez proches des 18-24 ans quand ils parlent de la droite (peu de mots politiques pour parler de la droite, plutôt des mots idéologiques) et assez proches de 35-44 ans lorsquils parlent de la gauche (langage du fonctionnement du jeu politique). La qualité des résultats peut être évaluée au moyen dindicateurs comme les corrélations entre les axes de compromis et les axes des analyses séparées des sous-nuages, la contribution à linertie de chacun de ces sous-nuages ou leur qualité de représentation.
Figure 5. Plan principal de lanalyse de la table juxtaposée
7. Conclusion
Lanalyse des tables juxtaposées constitue une synthèse des analyses séparées ; linterprétation des résultats est facilitée par lapproche globale du fonctionnement du vocabulaire. Cette analyse facilite la comparaison des catégories homologues, et plus généralement des structures globales, en fonction des réponses fournies à chacune des questions. Cette analyse na de sens que lorsqu'il existe une structure commune forte, et que les sous-nuages apportent des contributions similaires à la détermination des axes, sinon les résultats obtenus ne sont que des artefacts.
Références
Claeys, P.H., Demarez, P. (1994). Lélectorat francophone et laxe gauche-droite. In Frognier A. P. et Aish-Van Vaerenbergh A. M. (eds.). Élections : la fêlure ? Enquête sur le comportement électoral des wallons et des francophones. Bruxelles : De Boeck-Université, pp. 127-147.
Escofier, B., Pagès, J. (1993). Analyses factorielles simples et multiples ; objectifs, méthodes et interprétation. Paris : Dunod.
Lebart, L., Morineau, A., Bécue, M. (1988). SPAD.T, Système Portable pour l'Analyse des Données Textuelles. Saint Mandé : CISIA.
Lebart, L., Salem, A. (1994). Statistique Textuelle. Paris : Dunod.