[1] Pour notre part, nous nous situons dans le courant d'analyse des données textuelles animés notamment par M. Bécue (UPB, Barcelone), L. Lebart (C.N.R.S./E.N.S.T.) et A. Salem (E.N.S. Saint-Cloud) avec lesquels nous maintenons des contacts de travail réguliers.

[2] Le terme d'Analyse des correspondances a été créé en 1962 et le premier exposé sur la méthode a eu lieu au Collège de France en 1963 (Benzécri, 1982, page 101).

[3] Nous ne parlerons pas, ici, du problème du choix d'une métrique particulière, sa mise en cause ne se posant pas vraiment dans le cas de l'analyse de données textuelles (la métrique du chi2 ayant été constituée pour ce type de traitement).

[4] C'est vrai aussi dans le domaine de la reconnaissance des formes. Dans un article sur les sciences cognitives, Smolenski compare I.A. connexionniste et I.A. symbolique et remarque que "l'inconvénient du <<rêve booléen>> est que les règles symboliques et la logique qui permet de les manipuler tendent à produire des systèmes rigides et fragiles" d'où la nécessité d'une approche distribuée ou neuronale pour tout "objet" non simplement symbolisable comme élément d'un système (voir aussi Le Moigne, à ce propos).

[5]Ce modèle a été utilisé par Benzécri dans l'une des premières analyses effectuées sur des données textuelles. Il s'agit de l'étude sur les professions de foi des députés élus en 1881 (1973). Le tableau constitué croise 56 formes "pleines" (plus ou moins des lexèmes) avec les différentes réponses des députés. Autrement dit, au modèle "objets / qualités" ou "sujets / prédicats" se substitue un modèle "sujets / objets". Dans ce dernier cas, les unités formelles mises en relation ne sont pas de même niveau : d'une part les professions de foi de chaque député et, d'autre part, certains mots utilisés par ces députés ; donc, d'une part, des environnements lexicaux et, d'autre part, des unités lexicales particulières.

[6] ...analogie seulement, car cette théorie ne s'applique pas au même niveau d'analyse : nous ne nous situons pas dans l'analyse d'un énoncé : celui-ci n'a que la valeur d'une occurrence statistique.

7 P. Jacob,C du CNRS, ndeg. 79, oct 1992, p117

[8] Du moins telle que certains chercheurs l'envisagent. Pour Gun R. Semin, par exemple, "les représentations sociales sont d'abord des points de référence, elles fournissent une position ou une perspective à partir de laquelle un individu ou un groupe observe et interprète les événements, les situations, etc. Surtout, elles donnent les points de référence au travers desquels une personne communique avec autrui, en lui permettant de se situer et de situer son monde." (Jodelet, 1989).

9 En psychologie cognitive, G. Vignaux distingue les "représentations" qui sont des constructions circonstancielles utilisées par un sujet à un moment de son activité et mobilisant plutôt des registres de mémoires à court terme, de l'état des "connaissances" qui sont stabilisées dans la mémoire à long terme. (Les sciences cognitives, une introduction, 1992). La notion de "représentation" est différente en psychologie sociale, aussi nous éviterons de l'utiliser. Pour en parler au sens de Vignaux qui est aussi celui de P. Jacob, on utilisera le terme de "point de vue" (qui marque davantage la place d'un sujet, ici et maintenant). Pour en parler, en un sens plus collectif, plus général (expression d'une plus grande permanence), nous utiliserons le terme de "monde".

[10] Une incertaine réalité (Bordas, 1985)

[11] Matière à pensée (Odile Jacob, 1989)

[12] Pour J. Piaget et de J. Ullmo (1969), ce sont les lois de transformations et de réversibilité qui fondent la permanence et l'identité des objets, ces lois s'intériorisant progressivement au niveau cognitif, à partir des actions du sujet, de sa "manipulation" des "objets". On passe ainsi de la perception diffuse et globale d'un monde à sa représentation cognitive comme "système". Comme on sait, la notion de groupe est centrale pour cela puisqu'un groupe de transformation modélise justement des actions réversibles sur les objets (les déplacements notamment). Cette notion de cohérence impliquée par les lois du groupe traduit simplement le fait que chaque élément de celui-ci peut être relié à n'importe quel autre, que l'on peut passer de l'un à l'autre et réciproquement. Elle traduit donc tout autant un "état des choses" que l'activité d'un "sujet-manipulateur" (par ses déplacements ou ses préhensions)... Dans un monde "naturel", cette logique ne peut être séparée d'une activité. Elle est "logique naturelle" ou "logique de sujet" (pour reprendre les termes de J.B. Grize) dépendant tout autant de l'organisation même de son activité, de ses projets, de ses intentions que d'un "état des choses". C'est justement le fait d'abstraire peu à peu ces "états de choses" d'une relation subjective qui a conduit à se représenter peu à peu un monde sans sujet ou pourvu d'un sujet universel dont les potentialités d'action sont celles des lois logiques.

[13] Dans l'action, on n'a souvent pas le temps d'unifier, il faut donc pouvoir être "autre" momentanément, et donc avoir la possibilité de se dédoubler quitte à chercher ensuite une unification, qui peut être perçue aussi comme une recherche d'identité (à mettre en relation avec la notion d'ancrage et d'objectivation dans la théorie des représentations sociales). Ceci engage à une réflexion sur le lien existant entre dialectique et logique. Avant de pouvoir unifier un ensemble de points de vue, il est nécessaire de les gérer les uns par rapport aux autres, de les situer respectivement et c'est par cette action qu'on les unifie en les intégrant peu à peu dans un espace commun plus profond. Nous retrouvons, là, la loi déjà évoquée et mise en évidence par Piaget chez l'enfant, concernant la "logification" progressive de l'action.

Notons que les différents mondes définis ne le sont que relativement à une forme d'activité des sujets (de leur tendance à ne pas relier entre eux des objets de mondes différents). Ils traduisent donc autant leur incapacité à les unifier dans une même représentation qu'une réalité en soi.

[14] les icônes, au sens religieux, peuvent être perçues comme des essais symboliques de telles unifications. Voir à ce propos l'interprétation junguienne des Mandalas (Psychologie et Alchimie). La notion d'inconscient chez Jung renvoie à celle de monde. Nous partageons cette représentation à condition de mettre le mot "monde" au pluriel. L'inconscient est peuplé de mondes contradictoires qui s'impose plus ou moins à la conscience à un moment donné selon les circonstances. Cette vue est du reste assez proche de celle de cet auteur, le "Soi" étant pour lui la cible mythique jamais atteinte d'une activité du sujet pour unifier les sollicitations contradictoires des mondes ("complexes", dans la terminologie Jung).

[15] Tous anciens membres du laboratoire de Psycho-biologie de l'enfant de R. Zazzo, dont je fis aussi partie entre 1970 et 1980. C'est d'ailleurs par leur intermédiaire que je me suis intéressé à une relation entre analyse de contenu et analyse de données et cette étude leur doit évidemment beaucoup.

[16] Les résultats obtenus sur le corpus des cauchemars constitué par M. Zlotowicz, tel qu'il a été retranscrit dans son livre. Leur proximité avec les résultats présentés confirmerait plutôt la faible incidence de cette retranscription sur nos résultats. 17Le corpus étudié regroupe 212 récits de cauchemars, d'adolescents de 12, 14 ou 16 ans, garçons ou filles, habitants de la région parisienne ou du Limousin et fréquentant des écoles laïques ou judaïques, avec une répartition homogène des réponses dans les différentes catégories ainsi constituées comme le montre le tableau ci-dessous :

Paris (EL) Paris (EJ) Limousin 12 ans G 12 11 12
12 ans F 12 11 12
14 ans G 11 12 12
14 ans F 12 11 12
16 ans G 12 12 12
16 ans F 12 12 12

Cette composition particulière de la population n'a d'ailleurs pas d'importance pour cette présentation. En effet l'influence des variables proposées, bien que non négligeable, est assez réduite comme suffit d'ailleurs à le montrer le lien entre les résultats obtenus ici avec ceux de M. Zlotowicz établis à partir d'un autre corpus (enfants parisiens de 5 à 12 ans).

[18]Certaines notations particulières ont été adoptées : "I" pour "il" ou "ils" , dans le cas où ce pronom remplace un "agresseur" potentiel ; "ne" pour "ne...pas" ; "porte*" quand il s'agit du nom et non du verbe, etc...

19 Les analyses ont été effectuées avec la version 2.0 du logiciel "Alceste".

[20] Dans le cas de cette étude, la définition des énoncés a été simplifiée du fait de la retranscription effectuée. Dans le cas général, la procédure utilisée part de l'idée suivante : plutôt que de chercher à obtenir un découpage rigoureux du texte en énoncés (auquel nous ne croyons pas vraiment) on lui substitue un découpage plus arbitraire en "unités de contexte", dont la définition peut varier dans certaines limites. On cherche ensuite, à l'aide de petites variations de longueur de ces unités, à repérer les résultats stables (c'est à dire indépendants de ces variations de longueur) (Reinert, 1990). 21 La reconnaissance d'un lexème n'a de sens dans cette approche statistique que dans la mesure où elle conduit à regrouper plusieurs formes sous un même intitulé (donc à regrouper plusieurs colonnes du tableau de données). Nous avons choisi une heuristique (Reinert 1987) dont voici les principales étapes : a) Dans une première étape de calcul, les formes simples sont d'abord délimitées, les locutions reconnues ainsi que les principaux "mots outils" qui seront éliminés (mis en éléments supplémentaires) ; b) Dans une seconde étape, les formes simples autres que les mots-outils sont regroupées : Deux méthodes de regroupement sont utilisées : l'une consiste à reconnaître ces formes directement à l'aide d'un dictionnaire propre : c'est le cas notamment des principaux verbes irréguliers ; l'autre méthode consiste à regrouper les formes du corpus, associables à une même racine et dont la désinence est reconnue à l'aide d'un dictionnaire des "suffixes". Aussi plutôt que "lexème", nous utilisons le terme de "forme réduite" ou de "racine" pour désigner les produits de ces transformations.

22 Cette méthode permet de traiter des tableaux logiques (codage "0" ou "1") de grandes dimensions (4 000 lignes par 1 400 colonnes maximum) mais de faible effectif  (60 000 "1" maximum). Schématiquement, il s'agit d'une procédure itérative : La première classe analysée comprend toutes les unités retenues. Ensuite, à chaque pas, on cherche la partition en deux de la plus grande des classes restantes, maximisant un certain critère (le chi2). La procédure s'arrête lorsque le nombre d'itérations demandé est épuisé (Reinert, 1983, 1985).

[23] Concrètement, cette opération est effectuée automatiquement par le logiciel : le paramètre définissant la longueur choisie pour une unité de récit est le nombre minimum de formes analysables : dans cette présentation on a choisi 12 formes pour le premier essai et 16 pour le second (Reinert, 1990).

[24] Pour comparer les classifications obtenues, on reprend l'u.c.e. comme unité. Les u.c.e. d'une même classe proviennent des mêmes "micro-récits" spécifiques d'un même type de vocabulaire. 25 Voici, à titre indicatif, la distribution des u.c.e. dans les classes en fonction des caractéristiques de la population :

Cl_1 Cl_2 Cl_3

Intitulé Nbre d'u.c.e. 639 263 211

A_12ans 548 252 82 69

A_14ans 572 170 91 79

A_16ans 557 217 90 63

P_limousin 528 244 77 36

P_paris_judaique 628 247 69 95

P_paris_laique 521 148 117 80

S_fille 947 341 152 109

S_garcon 730 298 111 102

Par exemple, 252 u.c.e. des 639 de la classe 1 proviennent des récits des enfants de 12 ans. Cette valeur est en gras, ce qui signifie qu'elle est significativement plus forte qu'attendue (au sens du chi2. i.e. : chi2 > 3.84 à un degré de liberté) Il y a une certaine discrimination des populations étudiées, ainsi que des âges par l'analyse mais leur rôle dans la définition même des classes ne doit pas être surestimé. Par exemple les énoncés provenant de récits de la population limousine représente 38% de l'ensemble des énoncés de la classe 1. Ce pourcentage devient significatif ici du fait de l'unité choisie qui est l'u.c.e. et non le récit. Cela dit, cette discrimination peut intéresser le psychosociologue mais nous n'insisterons pas dessus ici.

26 P. Achard a remarqué que les trois classes d'énoncés présentées ici discriminent assez bien trois positions de l'énonciateur telles qu'il les avait mises en évidence dans son analyse des "Une enquête par questionnaire pendant la guerre d'Algérie" (1991) concernant le vécu des appelés (notamment des récits de souvenirs) durant la guerre d'Algérie : "position d'Acteur, de Témoin ou de Patient". Selon son codage, 5 des 7 énoncés de la première classe impliquent une position d'Acteur ; Tous les énoncés de la deuxième classe renvoient à la position de Témoin ; Et enfin, au moins 10 des 19 énoncés de la troisième classe impliquent une position de Patient. Ce point de vue est d'ailleurs cohérent avec celui présenté dans nos interprétations. Cet aspect est d'autant plus intéressant que les deux approches sont très différentes : analyse de l'énonciation pour Achard, analyse de la référence ici (rappelons que les classes sont discriminées uniquement à l'aide des "mots pleins" dans un sens restreint : pronom, articles, prépositions, conjonctions, certains adverbes et même certains verbes modaux sont exclus de l'analyse). Cela montre une fois de plus la forte corrélation existant entre le plan "pragmatique" et le plan "sémantique" de l'énonciation. Cela suggère aussi une parenté entre les conditions de production des deux corpus qui renvoient, en définitive, aux récits d'un vécu angoissant (qu'ils soient imaginaires dans le cas des cauchemars ou réels dans le cas de la guerre d'Algérie).

[27] On compare, dans un énoncé donné relativement à l'ensemble des autres énoncés, la distribution des occurrences du vocabulaire spécifique d'une classe avec la distribution de celui qui ne l'est pas. Le résultat de cette comparaison est le coefficient mis entre parenthèse (chi2 à 1 degré de liberté).

[28] Chi2 "signé" à un degré de liberté sur les tableaux à quatre cases croisant présence/absence de l'occurrence d'une forme de telle catégorie dans telle classe. Le signe affecté au coefficient indique le sens de la corrélation ("+" si la diagonale est plus remplie et "-" sinon). Les valeurs des marges sont des effectifs : le nombre d'occurrences des formes classées...

[29] Les valeurs des tableaux (5, 0, -5, etc...) sont des chi2 à 1 dl affectés d'un signe en fonction du sens de la significativité (l'absence significative est notée "-" et la présence "+"). Ce chi2 est calculé sur un tableau à 4 cases croisant présence/absence d'une occurrence d'un mot de la catégorie avec la présence/absence de cette occurrence dans une u.c.e. de la classe.

Les valeurs des marges sont des effectifs : par exemple, 1561 est le nombre d'occurrences d'un mot-outil dans la classe 1; 52, le nombre d'occurrences d'un verbe modal dans les u.c.e. classées...

[30] Dans son système explicatif, M. Zlotowicz tend à assimiler cette notion à la perte de protection (p237) et par ce fait devient l'élément dynamique central de tout cauchemar. Pour notre part, nous utiliserons ce terme plus en rapport avec son cadre narratif pour désigner les situations de récit où la famille ou bien ses équivalents symboliques sont explicitement cités.

31 Jung s'interroge sur la part de données psychiques qui se trouve projetée dans l'inconnu du phénomène extérieur : "Cette part est en fait si grande, qu'en fin de compte nous ne sommes jamais en mesure d'indiquer la manière dont, en définitive, le monde en lui-même est fait, car nous sommes bel et bien contraints de transposer l'élément physique dans un processus psychique" (Les Racines de la Conscience, p67). L'objet devient porteur d'un contenu psychique et le "monde" devient l'expression même de l'inconscient .