La statistique textuelle pour traiter une question ouverte suivie dune relance
Bénédicte Garnier, France Guérin-Pace
Institut National dÉtudes Démographiques
27, rue du Commandeur, 75014 Paris, France
e-mail : garnier@ined.fr, guerin@ined.fr
Summary
The efficiency of textual statistic methods for the study of open question is well known. When the open question is pursued by a follow up, we face to a more complex corpus. We propose in this paper to test different manners of approaching this type of textual material in order to restore the richness of this double question.
I. Données
A la demande de la Caisse Nationale des Allocations Familiales et différents ministères, lINED a effectué en collaboration avec lINSEE, une enquête nationale sur "Les femmes face au changement familial" (Festy P., Valetas M.-F., 1985). Plus de deux mille trois cents femmes, séparées de leur mari au cours des quinze années précédant lenquête, ont été interrogées sur les raisons de leur divorce et ses conséquences.
Un des principaux objectifs de cette enquête est danalyser le contexte de la séparation. La question ouverte "Quelles étaient les raisons qui étaient à lorigine de votre mésentente ?" est ainsi suivie dune relance "Quest-ce qui a effectivement provoqué la séparation ?". Si les enquêtées névoquent pas spontanément les motifs de la séparation, la relance est posée pour les "contraindre" à parler de cette séparation.
Une question ouverte suivie dune relance, constitue un matériau complexe, dans la mesure où elle est destinée à recueillir une information à deux niveaux.
Nous montrerons que les méthodes de la statistique textuelle dont on connaît lutilité pour le traitement des questions ouvertes (Beaudouin V., Lahlou S., 1993), permettent de tester simplement les différents traitements de cette information et den tirer le meilleur parti (Guérin-Pace F., Garnier B., 1995).
Au préalable, on sinterroge sur la manière de constituer le corpus. Doit-on considérer les réponses à la question ouverte et les réponses données à lissue de la relance, comme deux questions indépendantes ou comme une seule réponse ?
Doit-on faire lhypothèse qua priori les réponses données spontanément (sans relance) ont des contenus différents des réponses ayant nécessité une relance ?
Nous disposons dun corpus de plus de 2 329 réponses parmi lesquelles 1 133 comportent une relance ; ainsi quun ensemble de caractéristiques socio-démographiques des femmes interrogées.
II. Méthode
Nous avons utilisé le logiciel ALCESTE afin de définir des associations de thèmes ou "mondes lexicaux" (Reinert M., 1993), à partir de classifications hiérarchiques sur différents sous-corpus.
Dans un premier temps, nous avons posé lhypothèse que les réponses obtenues sans relance, les réponses données avant la relance et les réponses données après la relance constituent une réponse globale. En effet, le point le plus important est de recueillir le motif effectif de la séparation, quelle que soit la façon dont on obtient cette réponse.
Par ailleurs, nous avons constitué une variable permettant de différencier les réponses données avant et après la relance, de celles obtenues sans relance.
Dautre part, nous avons traité séparément les questionnaires non relancés. Nous considérons alors que les enquêtées non relancées répondent à deux questions en une seule (origine de la mésentente et cause directe de la séparation) alors que les enquêtées relancées répondent, en réalité, à deux questions.
Selon cette hypothèse, nous avons constitué trois corpus différents : le premier à partir des réponses des enquêtées non relancées, un autre regroupant les réponses avant relance et un corpus des réponses données après relance.
Ainsi, on observe si des mondes lexicaux différents émergent, selon le contexte de questionnement.
III. Résultats
1. Traitement du corpus sans distinction de relance
Dans un premier temps, on constitue un corpus sans distinguer le statut de la réponse (relance ou non relance). On considère alors que les textes situés avant et après la relance ne forment quune seule réponse. On impose seulement, dans le cas où il existe une relance, la constitution dau moins deux unités de contexte élémentaire (UCE).
Si lon considère les réponses données avant et après la relance comme une réponse globale, le corpus contient alors autant dunités de contexte initiales (UCI) que de femmes interrogées, soit 2 329 UCI, découpées en 3 298 UCE. Le nombre moyen de mots analysés par UCE est de 5% de lensemble des mots analysés (2 279).
Une Classification Descendante Hiérarchique sur ce corpus, met en évidence quatre mondes lexicaux. Le tableau 1 donne pour chacune des classes, les UCE les plus caractéristiques.
Tableau 1 : UCE les plus caractéristiques des classes
manquement a LA vie de famille
16 |
il #vivait égoïstement, il #venait de l' assistance publique et n' était pas #fait pour la #vie de #famille, ne s' #occupait pas de sa #fille, les #derniers #temps ne payait plus les factures. |
14 |
l' #enfant, le #fait d' être #enceinte, je-pense, on était bien sinon, mais il avait une maîtresse, l' #enfant représentait une #charge qu' il ne voulait pas #assurer, il voulait que j' #avorte, j' ai #préféré #divorcer |
13 |
on n' était pas #fait l' un pour l' autre, il était très #égoïste quand l' #enfant est #tombe #malade il ne l' a pas #accepte. |
13 |
je suis encore en train de me le #demander, je pense que je me suis #mariée très #jeune 19 ans, il y avait beaucoup les copains il me #laissait #tomber et il y avait aussi sa #mère qui ne m' #aimait pas et qui a #fait ce-que il fallait pour-que ça #tombe$ |
12 |
#garçon bien, il ne pouvait pas être marié, un #père de #famille ou il ne pouvait pas #assumer de #responsabilités, c' était un #frère, il a voulu quitter la soutane pour se #marier, c' était pas une réussite. |
12 |
je #trouvais qu' il ne s' #occupait pas assez de moi et il #allait toujours #voir les amis et les #parents, il me #laissait à la #maison$ |
11 |
la #belle #famille #habitait trop près et s' #occupait de nos #problèmes. |
La caractéristique "niveau dinstruction supérieur au Bac" est sur-représentée.
incompatibilité
49 |
#incompatibilité d' #humeur, nous avions des #caractères #opposes ce-qui #provoquait de #continuelles #disputes. |
35 |
#mésentente, #goûts #différents, #disputes #continuelles. |
35 |
on ne s'-est jamais #entendu, #caractères totalement contraires, disons il avait surtout l' esprit de contradiction, et puis au-point de #vue #goût c' était l' #opposé$ |
29 |
pas de #raison #particulière #incompatibilité d' #humeur #différence de #caractère. Petits #faits accumules. |
28 |
#incompatibilité d' #humeur, #différence d' #âge, pas de lien entre nous. |
28 |
#incompatibilité de #caractère, #manque de #maturité de chacun. |
28 |
#incompatibilité de #caractère, #mésentente #sexuelle$ |
Caractéristique "diplôme supérieur"
infidélité
30 |
mon #mari m' a #trompée, il est #parti avec une autre #femme, en #quittant le #domicile$ |
24 |
en rentrant de la clinique j' ai été encore plus #dure avec lui pour-que il #choisisse enfin, il a #craqué et est #parti #rejoindre sa #maîtresse. |
20 |
#absences #fréquentes du #mari qui avait une #liaison. |
20 |
mon #mari est #parti avec une autre #femme du #jour au lendemain. |
20 |
#adultère, #parti avec ma #meilleure #amie. |
20 |
les #relations de mon #mari avec sa #première #femme. |
Femmes de 45 ans et plus
violenCE/ boisson/ problèmes financiers
25 |
son #travail, je vous ai dit qu' il ne voulait pas #travailler, il #sortait beaucoup, #buvait dans les #cafés, #dépensait l' #argent du #ménage et n' avait pas d' #heure pour #rentrer. |
23 |
#instabilité #boisson il #faisait la #bringue et #dépensait tout l' #argent du #ménage il #rentrait à 3 h du #matin plusieurs #fois par semaine. |
22 |
#buvait, ne #travaillait pas et me #frappait, #prenait mon #salaire, une #allocation et #jouait aux #courses. |
21 |
pas #sérieux dans son #travail #instable je m' en foutisme #violent il m' a #tenu par la #peur pendant des années avec #menaces de me #tuer toujours en brandissant un #couteau. |
20 |
il #buvait, #sortait avec ses #copains quand il #rentrait il me #battait et il #arrivait même à me #prendre l' #argent du #ménage, c'-est sur le #conseil de mes beaux-parents que j' ai divorcé. |
Femmes sans diplôme
De cette première analyse, quatre mondes lexicaux se dessinent qui mêlent des réponses précises "mon mari est parti avec une autre femme", à des évocations vagues "incompatibilité dhumeur". Le contenu des réponses apparaît aussi lié aux caractéristiques sociales et démographiques des femmes interrogées.
2. Traitement du corpus en distinguant les deux niveaux dinformation
La différence avec le corpus précédent réside dans la mise en forme de linformation collectée. On sintéresse ici non plus au corpus des femmes interrogées mais à celui des réponses, en considérant que les réponses données avant et après la relance, sont distinctes. Le corpus est alors constitué de 3 459 UCI qui donnent lieu au même nombre dUCE. Elles se décomposent de la façon suivante : 1 196 UCI correspondent aux réponses données par les femmes non relancées auxquelles on ajoute les 1 130 réponses (UCI) données avant la relance et 1 133 réponses (UCI) données après la relance. Le nombre moyen de mots analysés par UCE est de 4.8% de lensemble des mots analysés (2 277).
La lecture du vocabulaire le plus spécifique de chaque classe fait émerger cette fois-ci trois mondes lexicaux (Tableau 2) :
Tableau 2 : Formes les plus caractéristiques des classes
violenCE/ boisson/ problèmes financiers
Vocabulaire spécifique
infide+l(65), alcool<(105), argent(171), boisson+(74), copain+(62), battre.(83), boire.(203), depens+er(39), frapp+er(44), insta+ble(72), travail<(185), viol+ent(129), donn+(67), mech+ant(31), tap+er(31), bruta+l(28), cafe+(31), coup+(41), dette+(31), rentr+er(68), sortir.(49), manque+(34), faire.(81), mauvais+(26), menage+(29) ;
Mots étoilés spécifiques
*18 à 27 ans(40), *avant relance(385), *mariée(290), *moins de 24 ans au moment de la séparation(229), *employée(347), *inactive(360), *ouvrière(135), *sans diplôme(306), *CEP(269), *enfants nées de cette union et dautres unions (270), * lunion a duré entre 0 et 4 ans(268), * lunion a duré entre 15 et 19 ans(136) ;
INCOMPATIBILITÉ/ MANQUEMENT A LA VIE DE FAMILLE
Vocabulaire spécifique
commun+(24), chose+(43), couple+(34), dispute+(37), vie+(105), differ+ent(72), jeune+(44), sexu+el(43), familia+l(20), ensemble+(34), part+(26), abs+ent(28), mariés(54), problem<(42), mesentente+(41), caractere+(47), famille+(33) ;
Mots étoilés spécifiques
*entre 38 et 47 ans(206), *entre 28 et 37 ans(226), *non relancée(250), *en couple(119), *entre 25 et 29 ans au moment de la séparation(149), * entre 30 et 34 ans au moment de la séparation(140), *agricultrice(34), *cadre(44), *profession intermédiaire(128), *BAC(78), *BEPC(199), *BAC et plus(115), *enfants nés de cette union uniquement(366), *enfants nés hors de cette union(78), *10-14 ans depuis la séparation(181), * lunion a duré entre 10 et 14 ans(128), * lunion a duré entre 5 et 9 ans(187) ;
infidÉlitÉ
Vocabulaire spécifique
parti+(146), femme+(197), mari+(327), rencontre+(70), ami+(46), jour+(81), fait(108), quitte+(28), mere+(48), domicile+(29), fille+(61), liaison+(48), maitresse+(62), parent+(52), trouv+(42), decide+(33), malade+(34), fils(37), mois(31), aller.(79), enquet+er(32), prendre.(66), rest+er(39), separ+er(37), venir.(41), connu+(32), partie+(48), an+(56), divorce+(31), temps(37), connaitre.(34), demand+er(35), partir.(51), voir.(52), ex(61) ;
Mots étoilés spécifiques
*entre 58 et 85 ans(92), *entre 48 et 57 ans 260), *après relance(456), *sans conjoint(637), *entre 35 et 39 ans au moment de la séparation(179), *entre 40 et 45 ans au moment de la séparation(126), *plus de 45 ans au moment de la séparation(131), *sans enfants(102), *15-19 ans depuis la séparation(167), *plus de 20 ans depuis la séparation (48), * lunion a duré plus de 20 ans(167) ;
Lorsque lon distingue le texte associé à la relance, on obtient un nombre de classes inférieur (3 classes). On remarque que les caractères illustratifs les plus représentatifs de chacune des classes sont liés au niveau du questionnement. Ainsi la première classe comporte un nombre important de réponses situées avant la relance, la seconde classe est représentative du discours des femmes non relancées et la dernière regroupe principalement des réponses données lors de la relance.
On constate que le contenu diffère selon le statut de la réponse. Les propos des femmes "relancées" sont éloignés des propos des femmes non relancées. Le premier monde lexical évoque la violence du mari, les problèmes dalcoolisme, propos le plus souvent tenu dès la question posée pour les femmes relancées. Ces femmes sont plutôt peu diplômées et de niveau social bas. Dans le second monde lexical on trouve des réponses assez vagues, évoquant des styles de vie différents entre époux. Ces raisons sont données spontanément par des femmes de niveau dinstruction élevé (diplôme supérieur). Enfin, on relève des situations dadultère comme cause principale de séparation. Ces réponses sont le plus souvent le "fruit" dune relance.
Cette dernière approche du corpus nous apparaît très intéressante dans la mesure où la mise en forme est simple. Elle fait émerger un ensemble de mondes liés au statut de la réponse et permet de confirmer lhypothèse dun contenu différent. En revanche, les mondes lexicaux sont peu nombreux et la richesse du contenu nest pas suffisamment restituée. Ainsi, nous sommes conduit à étudier séparément les corpus correspondant aux différents niveaux de questionnement.
3. Traitement des sous-corpus selon le niveau de questionnement
Nous avons ici constitué trois corpus : celui des réponses obtenues sans relance, un second constitué des réponses situées avant la relance et un troisième qui regroupe les réponses données après la relance.
Corpus "sans relance" (1 196 réponses)
Une classification des réponses obtenues sans relance met en évidence des mondes lexicaux assez proches de ceux de la première analyse.
Les résultats de lanalyse des correspondances du tableau croisant les formes et les classes sont illustrés sur la figure 1. Le premier axe oppose des motifs de mésentente : "incompatibilité", "mariés trop jeunes" à des termes exprimant un comportement "agressivité du mari" "boisson", "violent", "caractériel". Dun côté, il semble que les torts soient "partagés" alors que de lautre, le mari, par ses agissements, est rendu responsable de la séparation (buveur, violent, joueur,...). Laxe vertical évoque des événements liés à des situations particulières : "adultère", "maladie" du conjoint, "migration"...
Figure 1 : Projection des classes et vocabulaire spécifique du corpus "sans relance"
(plan 1.3)
Corpus "avant relance" (1 130 réponses)
Les mondes lexicaux associés à ce corpus reflètent davantage des situations de mésentente et non pas un motif précis de séparation, ce qui justifie la présence dune relance. Ainsi, le thème "infidélité" est absent de ce corpus.
Corpus "après relance" (1 133 réponses)
La Classification Descendante Hiérarchique effectuée uniquement sur le texte des relances, met en évidence quatre mondes lexicaux illustrés par les UCE caractéristiques suivantes :
intérêt des enfants
22 |
nous avons #attendu que notre #fils soit #grand, pas de #désaccords #graves. |
18 |
#dispute #violente avec #coups sur #enfant. |
18 |
je ne pouvais plus le #supporter, j'ai #attendu que les #enfants soient #grands. |
17 |
la #naissance de l' #enfant, je ne voulais pas que l' #enfant #subisse l'ambiance du #mauvais climat #familial, je voulais une #vie plus équilibrée pour l' #enfant. |
14 |
mon #fils aîné a fait de lanorexie, mon mari était #violent, j'étais angoissée, le #médecin m'a #conseillée d'éloigner mon #enfant de cette atmosphère #familiale. |
13 |
la #violence avec les #enfants qui #grandissaient je redoutais un drame |
13 |
j'étais à l' #hôpital, très #malade, il est arrivé #ivre et j'ai eu très #peur. |
Femmes non diplômées, présence denfants de cette union uniquement
manquement à LA vie familiale /relations avec la belle-famille
43 |
je me suis #rendue #compte que j'étais #responsable et que s'il avait des #dettes j'aurais des #responsabilités. |
|
32 |
la #belle #famille habitait trop près et s' #occupait de nos #problèmes. |
|
26 |
une #absence et un #manque #total de #responsabilité, et une #absence affective au sens #propre et figuré envers ses enfants et moi. |
|
22 |
#problèmes d' #argent, #dettes, il s'achetait des voitures, il sortait. |
|
22 |
le moment où je me suis #rendue #compte qu'il n'y avait plus le moyen de s' #entendre. |
|
21 |
#manque d'ambitions de sa #part. |
Femmes de catégorie sociale supérieure, lunion a duré entre 5 et 9 ans
Départ de la femme
12 |
il voulait #revenir de #temps en #temps alors un #jour j'ai #mis ses #affaires sur le palier, je ne voulais plus le #voir. |
10 |
un #jour j'en ai eu #marre, j'ai #pris mes #filles et je suis repartie chez ma #mère. |
10 |
j'en ai eu #marre, et quand j'ai su qu'il avait une #maîtresse, ça m'a #décidé à #demander le #divorce. |
10 |
il est #rentré #saoul pour l'anniversaire de sa #fille #aînée, j'en ai eu assez, je suis #partie. |
10 |
parce-que il en était #venu aux #mains, il m'a giflée une #fois, pas deux, j'ai #décidé de le #quitter. |
10 |
lorsque je suis allée #voir sa #mère pour #savoir ou il était elle m'a dit de le #laisser tranquille sinon il me #ferait la peau. |
9 |
le #ras le #bol de #voir un homme #saoul tous les #jours et qui ne voulait plus #travailler. |
8 |
le #fait d'avoir un #travail stable je me suis dit j'y #arriverais, ça m'a #décidé quand il a su que je #demandais le #divorce, il a #pris son fusil et m'a menacée, je suis #partie. |
infidélité/départ du mari
17 |
il a #rencontré une #femme, je n'ai pas #supporté qu'il me trompe et j'ai #provoqué la #séparation. |
10 |
le #départ du #mari avec une autre #femme. |
10 |
il est #parti 2 mois en #vacances #seul, ce-qui a #provoqué la rupture. |
10 |
#abandon du #domicile #conjugal. |
10 |
il était #parti avec des #femmes je ne #supportais pas ça. |
10 |
la #rencontre avec mon #mari #actuel. |
10 |
#nouvelle #rencontre du #mari. |
10 |
le #départ de mon #ex #mari. |
La caractéristique "union supérieure à 20 ans" est dominante.
Sur les quatre mondes lexicaux ainsi obtenus, trois rassemblent des réponses décrivant des raisons précises de séparation, démontrant ainsi lutilité dune relance. Seul, le monde lexical "manquement à la vie de famille" évoque une situation de mésentente. En dépit de la relance, plusieurs femmes nexpriment pas de motifs directement responsables de leur séparation.
On nobserve pas dans le corpus "relance" de thème liant la violence du conjoint à lalcoolisme. En revanche, on relève pour la première fois, un monde lexical exprimant la violence du mari envers ses enfants. Ce motif, sans doute plus difficile à avouer pour certaines femmes, némerge quau moyen dune double interrogation. De même, le motif "infidélité" entraînant le départ dun des deux conjoints, nest évoqué quen réponse à la relance.
Lanalyse des réponses selon le niveau du questionnement, met en évidence lintérêt du sous-corpus "relance" dont le contenu est réellement différent du corpus pris dans sa totalité.
En conclusion, nous proposons de traiter, dans un premier temps, le corpus dans son intégralité sans distinguer le statut de la réponse, afin dobtenir une vue densemble du corpus. Dans une seconde étape, il nous semble important de traiter séparément les réponses issues de la relance qui constituent le plus souvent, les motifs réels de la séparation.
Lutilité des méthodes de la statistique textuelle dans le domaine des enquêtes, semble ici renforcée par son efficacité dans lanalyse de ce double questionnement. Cette démarche qui repose sur un traitement à "laveugle" constitue en réalité un traitement dynamique, dans la mesure où lon affine de manière interactive lanalyse dun matériau complexe, jusqu'à faire émerger ce quil contient de plus caché.
Références
Beaudouin, V., Lahlou, S. (1993). "L'analyse lexicale : outil d'exploration des représentations", Cahiers de Recherche CREDOC, n° 48 et 48 bis, Paris.
Festy, P., Valetas, M.F. (1988). Le divorce en plus : ruptures et continuités. Société française, 26.
Guérin-Pace, F., Garnier, B. (1995). "La statistique textuelle pour le traitement simultané de réponses à des questions ouvertes et fermées, sur le thème de l'environnement", JADT 1995, volume 2, sous la direction de S. Bolasco, L. Lebart, A. Salem, CISU, Rome, pp. 37-44.
Guérin-Pace, F. (1997). La statistique textuelle : un outil exploratoire en sciences sociales. Population, 4.
Lebart, L., Salem, A. (1994). Statistique textuelle, Dunod.
Reinert, M. (1995). "Quelques aspects du choix des unités danalyse et de leur contrôle dans la méthode 'Alceste'", JADT 1995, volume1, sous la direction de S. Bolasco, L. Lebart, A. Salem, CISU, Rome, pp. 27-35.
Reinert, M. (1993). "Les "mondes lexicaux" et leur "logique" à travers l'analyse statistique d'un corpus de récits de cauchemars", Langage et société, n°66, M.S.H., Paris.
Roure, H., Reinert, M. (1993). "Analyse dun entretien à laide dune méthode danalyse lexicale", JADT 1993, ENST, Paris, pp. 418-428.