LES SYNTAGMES REPETES DANS L'ANALYSE DES COMMENTAIRES LIBRES

Sommaire des JADT 1998

LES SYNTAGMES RÉPÉTÉS DANS L'ANALYSE

DES COMMENTAIRES LIBRES

André Pibarot, Jacques Picard*

CRSSA BP 87, 38702 La Tronche cedex

email : apibarot@compuserve.com

Dominique Labbé

CERAT-IEP BP 45, 38402 St Martin d’Hères cedex

email : cerat@iep.upmf-grenoble.fr

Summary

After lemmatization, a program extraits the repeted associations of significant words, such as nouns, adjectives or verbs either separated or not by grammatical words. These repeted syntagmas provide some concepts more precise than simple words and make themes' detection easier in questionnaires' free commentaries.

L'analyse de commentaires libres à des enquêtes amène à s'intéresser aux mots qui sont davantage porteurs de sens : substantifs, adjectifs et verbes. Leur association revêt une importance particulière lorsqu'on recherche les idées ou les thèmes. Des expressions comme condition de travail ou temps partiel apportent une information plus précise que chaque terme pris isolément. Nous proposons ici une méthode pour les repérer.

La stratégie adoptée amène à travailler sur les lemmes et à sauter les mots grammaticaux. Elle implique donc à la sortie un travail de réhabillage et éventuellement de vérification des expressions retenues : on trouvera par exemple charge travail pour charge de travail, conséquence travail santé pour conséquence du travail sur la santé. En pratique, lorsque des expressions sont répétées, il est très rare qu'on ait des problèmes pour les reconstituer.

Elles sont désignées ici par extension comme des "syntagmes", c'est-à-dire des groupes de mots qui forment une unité ou qui se suivent avec un sens.

En fait, le terme de syntagme répété a été adopté par analogie avec celui de "segment répété". En travaillant sur les lemmes et non sur les formes et en excluant les mots grammaticaux, on réduit considérablement l'information à traiter. A titre d'exemple, le tableau fourni par A. Salem à propos du corpus SYND sur les résolutions votées par 4 grands syndicats français montre que pour 231 288 occurrences, le nombre de segments répétés de deux mots ou plus dépasse les 80 000 (1987, p.86). En comparaison, dans le corpus De Gaulle établi par D. Labbé, et comprenant plus de 200 000 occurrences, le nombre de syntagmes répétés, au sens défini plus haut, n'est que de 5712.

Dans la même logique d'analyse des formes, M. Bécue (1993) propose de travailler sur les quasi-segments basés eux-aussi sur la répétition de formes au sein d'un intervalle prédéfini, généralement restreint : ainsi faire du sport, faire un peu de sport, faire de temps en temps du sport. Se pose alors le problème du choix, car les quasi-segments sont plus nombreux que les segments. Mais ce projet est assez proche du nôtre, qui aurait ramené les trois exemples précédents au même syntagme : faire sport. Cela permet de regrouper des quasi-synonymes : les uns parleront de poste de responsabilité, les autres de poste à responsabilité, avec le même sens.

On vérifie facilement avec des concordances que la répétition de mots significatifs voisins traduit généralement le même concept. On n'a plus la même garantie avec les associations de mots dans un contexte plus large. Un petit test a été réalisé sur le corpus De Gaulle lemmatisé, en prenant comme contexte la phrase et comme témoin le mot grand. Ce qualificatif se trouve associé 23 fois au mot guerre, mais il ne le qualifie que 5 fois ; on trouve de même 24 associations avec le mot progrès, mais une seule fois l'expression grand(s) progrès.

Ces diverses raisons nous ont amenés à voir dans la recherche des syntagmes répétés une approche complémentaire des précédentes, surtout lorsqu'on cherche à résumer l'information et à détecter les principaux thèmes dans des commentaires libres abordant des sujets assez divers. Après une description de la méthode, deux exemples d'application seront présentés.

Méthodologie

La lemmatisation est nécessaire lorsqu'on veut désambiguïser un texte et filtrer les vocables par catégories grammaticales. Ajoutée au texte, elle laisse la possibilité de travailler sur les formes d'origine et de leur appliquer les mêmes filtrages.

L'opération est largement automatisatée et ne prend que quelques minutes pour un corpus de 300 000 mots à condition d'accepter quelques ambiguïtés non résolues. La recherche des syntagmes prend elle-même une dizaine de minutes pour le corpus précité. Le temps de recherche des syntagmes augmente plus rapidement que le volume des textes à étudier puisque le programme doit balayer en permanence l'ensemble du fichier. Une option permet de préciser le seuil de fréquence retenu.

Les quelques chiffres qui sont donnés ci-dessous ont pour but de rappeler le principal intérêt de cette approche. Ils ont été calculés sur les quelques corpus à notre disposition et ne visent en rien à établir des lois générales.

Les corpus de référence sont donnés ici avec le nombre de lignes du texte lemmatisé, correspondant au nombre de formes et de ponctuations :

- Enquête Santé au travail, commentaires libres : 36 144 occurrences.

- Enquête sur le moral, commentaires libres : 55 664 occurrences.

- Corpus De Gaulle, 79 interventions : 228 291 occurrences.

- Corpus Mitterrand, 68 interventions : 345 740 occurrences

Pour ces évaluations, seuls les syntagmes répétés différents comprenant deux mots ont été retenus. En effet les syntagmes de 3 mots ou plus sont par construction redondants avec ceux de dimension inférieure, ce qui pose des problèmes d'élimination et complique les comparaisons. Par ailleurs, comme les chances de répétition différent avec la taille, les corpus étudiés ont été comparés par fragments de 10 000 occurrences (mots ou ponctuations), en prenant des fragments consécutifs à partir du début pour les 4 corpus analysés.

TABLEAU 1 : Syntagmes répétés différents pour 10 000 occurrences

Sous-corpus	Mitterrand	De Gaulle	Enquête moral	Enquête santé
1	91	74	149	109
2	90	77	137	108
3	129	89	111	111
4	136	104	111
5	109	103	115
6	108	84
7	108	101
8	95	122
9	113	112
10	104	81
moyenne	108	95	125	109

En prenant comme référence ces différents blocs, le lexique des syntagmes répétés de deux mots se situe dans une fourchette de 75 à 150, ce qui en fait un nombre raisonnable pour une exploitation manuelle. Toutefois, ce n'est pas sur quelques corpus qu'on peut établir des normes de statistique lexicale. Aussi nous nous limiterons à deux observations :

- La proportion de syntagmes répétés différents observée sur des fragments de plus en plus longs augmente avec la taille des corpus examinés (Tableau 2). Elle ne suit pas la courbe d'accroissement du vocabulaire, qui a tendance à se tasser.

TABLEAU 2 : Proportion de syntagmes répétés différents et de deux mots relevés par fragments de différentes longueurs

	10 000 (moy.)	50 000	100 000	200 000	300 000
enquête moral	1,25 %	2,50 %
De Gaulle	0,95 %,	1,56 %	1,83 %	2,13 %
Mitterrand	1,08 %	1,73 %	1,84 %	2,09 %	2,20 %

- La répartition des fréquences retient également l'attention : comme pour les substantifs, un syntagme de fréquence élevée indiquera un thème plus fréquent qu'une simple répétition. Quant à la gamme des fréquences, elle suit elle aussi une progression logique dans les 7 ou 8 premières fréquences, comme on peut l'observer sur les quatre corpus étudiés (Tableau 3).

TABLEAU 3 : Distribution des fréquences des syntagmes répétés différents et de deux mots sur 4 corpus de taille différente

fréquences	2	3	4	5	6	7	8	9	10	> 10
enquête santé	65,3	19,1	5,7	2,8	1,6	1,3	0,8	1,5	0,5	1,6
enquête moral	64,5	17,8	5,9	3,7	2,1	1,2	0,8	0,9	0,8	2,4
De Gaulle	62,3	18,2	7,4	4,0	2,2	1,5	0,9	0,6	0,5	2,4
Mitterrand	60,0	17,1	7,8	4,4	2,6	1,6	1,2	0,8	0,6	3,8

On est frappé par la similitude des profils de distribution sur des corpus de tailles aussi variées, comparaisons qu'il faudra tester sur un grand nombre de corpus. L'essentiel pour l'instant est de constater qu'on réduit notablement l'information à traiter en relevant le seuil de fréquence : en écartant les syntagmes de fréquence 2, on en supprime déjà 6 sur 10.

On peut se pencher sur l'aspect grammatical. Le programme a en effet été conçu pour ne retenir que les associations de verbes (sauf auxiliaires), noms ou adjectifs. Or si dans la syntaxe le verbe est roi, puisque la phrase s'organise autour de lui, en sémantique on considère plutôt que le nom porte la plus forte charge conceptuelle. Comme le remarquait P. Guillaume, le substantif est son propre support, il ne connait que l'incidence interne, alors que les autres catégories apportent habituellement une matière notionnelle à un support qui leur est extérieur. Cette prédominance du substantif se traduit d'ailleurs syntaxiquement en ce qu'il impose son genre, son nombre ou sa personne aux autres formes fléchies.

On peut dès lors s'interroger sur l'opportunité de conserver les syntagmes répétés formés de plusieurs verbes, voire d'un verbe et d'une autre catégorie. D'autant que le verbe en première position est souvent un modalisateur ou pseudo-auxiliaire.

Voici quelques exemples, au seuil de fréquence 3, tirés de l'enquête Santé :

- Associations avec verbe, en prenant pouvoir comme mot inducteur : pouvoir apporter, pouvoir faire, pouvoir répondre, question pouvoir, questionnaire pouvoir, réponse pouvoir.

- Associations sans verbe, en prenant travail comme mot inducteur :

travail bureau ambiance travail médecine travail

travail écran an travail milieu travail

travail intéressant charge travail monde travail

travail manuel collègue travail organisation travail

travail quotidien domicile travail personne travail

travail santé journée travail poste travail

travail stressant lieu travail santé travail

médecin travail temps travail

Le mot travail se trouve lui-même associé à des verbes dans les expressions suivantes : travail devoir, travail faire, travail plaire, travail apporter, faire travail, trouver travail.

Sur ces exemples, les associations sans verbe apparaissent plus riches pour la recherche des thèmes. Si l'on veut limiter l'information à traiter, il sera préférable de sacrifier les syntagmes répétés de deux mots contenant au moins un verbe, ce qui peut se réaliser par des procédures automatiques. Par contre les qualificatifs conservent leur intérêt, dans la mesure où ils complètent souvent le nom au même titre qu'un groupe prépositionnel ou une phrase : travail quotidien équivaut à travail de tous les jours et travail stressant à travail qui donne du stress.

Dans les deux enquêtes précitées, la proportion de syntagmes avec verbe est de 30 % ; leur élimination entraîne une économie importante de traitement manuel sur de grands corpus. Toutefois, la question essentielle n'est pas de réduire l'information, mais de montrer la pertinence des syntagmes répétés pour la détection des thèmes, comme nous allons le voir sur deux exemples.

Applications

Le premier exemple correspond à un rapide sondage effectué dans un établissement. Il est donné à titre de simple illustration car il permet d'examiner l'intégralité des syntagmes répétés. Le deuxième concerne l'analyse des 773 commentaires libres de l'enquête Santé au travail.

Le sondage portait sur la restauration collective dans un établissement. Il s'agissait de demander aux personnels ce qu'ils accepteraient de payer pour maintenir sur place une restauration collective. Les 4 questions fermées du sondage étaient complétées par la question ouverte : Notez ici vos suggestions éventuelles sur le problème posé.

Sur 155 questionnaires exploitables (pour 195 personnels concernés), la moitié contenaient des commentaires, soit l'équivalent d'une dizaine de pages. Les 33 syntagmes répétés au seuil de fréquence 3 contiennent quelques doublons de même fréquence comme possibilité ticket et possibilité ticket restaurant ; ou encore des quasi-doublons comme baisser prix repas et baisser prix revient repas. Quelques expressions comme prix repas ou prise repas ne font que répéter le thème de l'enquête. Il reste donc une vingtaine de syntagmes qui ont été regroupés sans difficulté en 3 rubriques :

SERVICES DE RESTAURATION : faire appel, restauration collective, société de restauration, mess de garnison, école des pupilles de l'air.

ORGANISATION DE LA RESTAURATION SUR PLACE : récupérer du personnel, venir établissement, établissement militaire, personnel civil, salle de restauration, salle-hors-sac, restauration sur place, repas sur place, salle à manger.

COMPOSITION ET PRIX DES REPAS : baisser prix repas, prime ASA, ticket restaurant, ticket service, fonction revenu, repas complet, entrées et desserts.

Ce tableau a constitué un guide pour la lecture et le classement des suggestions :

- Par rapport aux services de restauration, les enquêtés proposent l'appel à d'autres sociétés de services ou d'autres systèmes ou encore l'association avec des établissements environnants qui pratiquent la restauration collective.

- L'organisation de la restauration sur place repose sur l'intégration de personnels de service, provenant par exemple d'établissements fermés, et sur l'aménagement des lieux de restauration, dans un but d'économie, de commodité mais aussi de cohésion des personnels.

- En ce qui concerne les repas, les propositions concernent surtout les prix, avec aménagement des systèmes d'aides et une composition des repas qui pourrait être moins coûteuse.

Évidement, il s'agit ici d'un petit corpus qui ressemble à un exercice d'école. L'exploitation des syntagmes répétés a permis de repérer rapidement les principaux thèmes développés dans les commentaires et donc de communiquer dans de brefs délais les résultats du sondage. Il a également été facile, sur un texte de petite dimension, de vérifier que ces thèmes correspondaient bien au contenu des commentaires.

L'enquête sur la santé au travail a été réalisée sur un échantillon représentatif de 30 établissements de la Direction générale de l'armement. Sur 4 080 questionnaires exploitables, 713 contenaient des remarques. Ce corpus de 37 144 occurrences, répondant à la question la plus générale qui soit, posait des problèmes plus difficiles d'exploitation, car il pouvait ouvrir sur des domaines très diversifiés. L'analyse des syntagmes répétés est venue seconder l'approche par les substantifs les plus fréquents.

155 vocables ont une fréquence _ 10. Les 50 plus fréquents (f 25) renvoient aux "cadres de pensée" (problème, vie, exemple...) ou reprennent des catégories du questionnaire (santé, poste, équipe, direction, relation...). Plus bas dans les fréquences, apparaissent des mots suggérant des pistes plus originales : stress, bruit, motivation, morosité ...

L'analyse des syntagmes répétés de fréquence _ 3 a facilité la recherche des thèmes abordés, comme le montrent les quelques exemples suivants.

Les conditions de travail apparaissent comme une préoccupation majeure, sur le plan physique (hygiène sécurité, fatigue visuel, produit toxique...), mais surtout psychologique. Témoin les syntagmes autour de mots-pivots comme manque (considération, motivation, communication, information).

Alors que les structures médico-sociales n'étaient pas citées dans le questionnaire, elles sont évoquées à travers médecine travail, médecin travail, service médical, assistante sociale.

Une exploitation plus systématique a pu être réalisée en isolant d'abord des "formes-pôles", c'est-à-dire les vocables de même position participant à au moins 3 syntagmes répétés de composition différente. Exemples :

forme-pôle 1ère position forme-pôle 2ème position

problème dos assistante social

problème familial climat social

problème financier sécurité social

problème personnel vie social

problème santé

Sur les 221 syntagmes étudiés, plus de la moitié sont ainsi concernés puisqu'on en compte 83 en première position et 95 en deuxième position, certains comme santé, travail ou question se retrouvant dans l'une ou l'autre position. On peut faire l'hypothèse que ces associations plus nombreuses nous renseignent surtout sur les cadres de pensée et sur les grands domaines abordés par l'enquête. De fait, les formes-pôles les plus nombreuses concernent (cf. entre parenthèses le nombre d'associations différentes pour chacune) :

- l'enquête : travail (35), réponse + répondre (15), santé (14), établissement (13), professionnel (12)...

- les modes d'expression : faire (14), vie (10), problème (8), difficile + difficulté (7), pouvoir (7)...

Leur examen nous fournit non pas un univers lexical (au sens de contexte large), mais une combinatoire qui sert de tremplin à la détection des principaux thèmes. On observe par exemple que l'avenir (5 syntagmes différents) est une préoccupation importante, surtout lorsqu'il est associé à des mots comme inquiet ou incertitude.

Une fois balayés ces thèmes plus fréquents, les syntagmes restants attirent l'attention sur des thèmes originaux :

- fatigue + fatiguer (3) liés à vue ou à visuel, à mettre en relation avec travail écran.

- interdiction fumer et fumeur bureau qui se rapportent tous les deux à la gêne créée par ceux qui ne respectent pas la réglementation.

Ce dernier exemple peut illustrer comment s'applique la vérification et l'enrichissement des thèmes abordés. La vérification est facilitée par un programme de concordance fournissant les contextes originaux à partir d'un, deux ou trois vocables. L'enrichissement est apporté par les mots proches rencontrés dans le contexte ou dans le listes de comptages.

On constate ainsi que sur les 27 mots fumer et fumeur, 14 concernent des plaintes de non-fumeurs et 8 des plaintes de fumeurs. Parmi ces derniers, certains se plaignent d'être parqués pour fumer et d'autres d'être découragés de s'arrêter par l'entourage qui fume. Les listes alphabétiques de vocables invitent à regarder le mot fumée lui aussi associé 3 fois sur 4 aux protestations des non-fumeurs. Sans oublier le mot enfumé trouvé grâce à un des contextes.

Ces quelques applications ont permis d'élaborer une grille d'analyse. Elle a été construite de façon empirique dans le cadre d'exploitation de commentaires libres. Elle peut aider les utilisateurs de terrain à exploiter leurs résultats préalablement à des traitements plus complexes comme les analyses factorielles ou les classifications qui sont en cours d'application sur ces corpus.

Les syntagmes se classent en trois catégories :

- Les syntagmes directement induits par le "contexte de production" des commentaires. Bien des syntagmes cités plus haut reprennent les thèmes des questions fermées, concernant par ex. l'organisation du travail (travail bureau, charge travail), les relations (collègues travail), les trajets (domicile travail) ou tout simplement les objectifs annoncés de l'enquête, à savoir les conséquences du travail sur la santé.

- Les syntagmes "cadres de pensée", c'est-à-dire ceux qu'un locuteur mobilisera spontanément lorsqu'il voudra s'exprimer sur tel ou tel domaine. On pourrait ranger dans cette catégorie des syntagmes rencontrés dans différentes enquêtes en milieu de travail : vie professionnel, vie familial, conjoncture actuel, problème personnel, réponse question, résultat enquête... Les syntagmes avec verbes ressortissent souvent à cette catégorie : falloir faire, pouvoir faire, faire partie, prendre (en) compte...

- Enfin les syntagmes marquant un écart par rapport aux deux catégories précédentes. Ils seront généralement davantage porteurs d'information, traduisant les préoccupations des enquêtés, faisant apparaître des aspects que les questions fermées n'avaient pas mis en lumière ou avaient occulté. Il est par exemple significatif que bien des commentaires de l'enquête Santé au travail aient invoqué des conditions particulières de travail qui n'étaient pas abordées dans le questionnaire.

En conclusion, le détour par les syntagmes répétés semble répondre aux objectifs initiaux qui étaient de proposer à des non-spécialistes une voie d'accès à la détection des thèmes dans les commentaires libres. D'autres applications sont envisageables, ne serait-ce qu'en changeant les critères de filtrage, pour s'intéresser par exemple aux répétitions de mots grammaticaux dans une perspective plus syntaxique, voire stylistique.

Références

Becue, M. (1993). Les quasi-segments pour une classification automatique des réponses ouvertes. JADT 1993, Montpellier. Paris, École nationale supérieure des télécommunications.

Guillaume, G. (1971). Leçons de linguistique 1948-49 I, série B. Paris : Klincksieck.

Juillard, M. & Luong, X. (1997). Words in the hood : a new look at the distribution of words in texts. Literary and Linguistic Computing, vol 12, N° 2, 71-78.

Labbé, D. (1990). Normes de saisie et de dépouillement des textes politiques. Cahiers du CERAT, n°7, Grenoble, Université des sciences sociales.

Labbé, D. (1990). Le vocabulaire de F. Mitterrand. Paris : Presses de la FNSP.

Lebart, L. et Salem, S. (1994). Statistique textuelle. Paris. : Dunod.

Pibarot, A., Arvers, P., Job, A. et Picard, J. (1994). Analyse des messages de presse télédiffusés. Revue française de bibliométrie, 13, 88-99.

Salem, A. (1987). Pratique des segments répétés. Paris : Klincksieck.

Sommaire des JADT 1998