QUATRE (UN ?) CORPUS QUATRE GENRES. QUELQUES RÉSULTATS
Margareta Östman
Département de français et d'italien
Université de Stockholm
S-106 91 Stockholm, Suède
e-mail : Margareta.Ostman@rom.su.se
Summary
The aim of this paper is to present some quantitative results of a comparison between four machine-readable corpora representing four different genres, viz. 1) ROMAN : Extracts from French novels published between 1962 and 1968; 2) FREC : Textbooks in commercial French for French students, published between 1974 and 1977; 3) EXMO : Articles, etc. on financial matters, published in l'Express and le Monde between 1987 and 1988; and 4) JO : Documents published between 1988 and 1993 in the French version of the Official Journal of the European Communities. The study concerns the average length of the sentences, paragraphs and clauses, the number of unique types, the proportion of Arabic numerals and, finally, the distribution of the unique types in the four corpora.
1. Introduction genres de texte étudiés
Au département de français et d'italien de l'université de Stockholm nous travaillons depuis les années 60 sur des corpus informatisés : Engwall (1974 et 1984) a établi un corpus de best-sellers français ; dans les années 70, un corpus de manuels de français commercial (le FREC) a été établi (Stöök 1991 ; Edmar 1992), et, il y a dix ans, notre département a établi un corpus journalistique (le COSTO-PRESSE) en collaboration avec les sections françaises d'autres universités suédoises (Engwall & Bartning 1989 ; Tullgren 1997). C'est dans cette tradition, entre autres, que s'inscrit le projet dont je parlerai et dans lequel sont engagés plusieurs doctorants (Allstig Lamos 1996 ; Edmar 1992, 1997 ; Sandqvist 1994, 1997).
Avec le présent projet, nous espérons pouvoir contribuer tant soit peu à la description d'une "langue de spécialité" : le français officiel des Communautés européennes. Pour saisir ce qui caractérise ce français, nous avons opté pour une étude comparative (cf. Laurén & Nordman 1987), où un corpus informatisé d'actes des Communautés européennes sera comparé avec trois autres corpus informatisés représentant des genres différents. Les quatre corpus ont exactement la même étendue : 233 796 occurrences chacun. Il s'agit des corpus et des genres suivants :
1 ROMAN : extraits de romans français publiés entre 1962 et 1968 ;
2 FREC : manuels de français commercial publiés entre 1974 et 1977 ;
3 EXMO : pages économiques de treize numéros de L'Express et de treize numéros du Monde parus entre mars 1987 et février 1988, dont onze sur treize datent de 1987 ;
4 JO : actes législatifs des Communautés européennes datant des années 1988-1993.
Nous ne tiendrons pas compte du décalage temporel dans la comparaison des quatre corpus mais les considérerons comme étant des corpus du français moderne de l'époque 1962-1993.
Des romans modernes destinés à un grand public sont supposés représenter le français standard, quoiqu'il s'agisse là d'une variété littéraire (cf. Riegel & Pellat & Rioul, 1994, p. 10). Les pages de L'Express et du Monde consacrées au domaine de l'économie sont également écrits pour un grand public et sont par conséquent aussi supposées représenter le français standard. Cependant, les matières abordées doivent requérir, dans une certaine mesure, l'usage d'une langue de spécialité. Cela vaut aussi pour les manuels de français commercial destinés à des étudiants français de niveau supérieur au lycée. Nous supposons cependant que le caractère de langue de spécialité est plus prononcé dans ces manuels que dans les pages économiques extraites de la presse. Dans les actes des Communautés européennes, finalement, écrits par des spécialistes à l'adresse d'autres spécialistes, la langue de spécialité doit prédominer. Selon notre hypothèse, les quatre corpus peuvent donc former une hiérarchie suivant le degré de spécificité (de langue économique, commerciale, juridique et administrative). Pour ce qui est des variétés de langue dont parlent Riegel & Pellat & Rioul (1994, p. 10), nous avons ici à faire au français standard et aux variétés techniques et stylistiques plutôt qu'à des variétés régionales, situationnelles ou sociales.
2. Extraction des occurrences
Nous avons fait entrer intégralement dans le JO, le FREC et l'EXMO respectivement tous les actes, tous les livres et tous les articles retenus. Le ROMAN, par contre, est composé d'extraits de suites de 2 000 occurrences des textes choisis, soit au total environ 20 000 occurrences de chaque roman (voir Engwall, 1984, p. XII).
Toutes les unités de texte, y compris les rubriques, les chiffres, les noms propres, les passages en langues étrangères, les tableaux, les annexes, etc. sont incluses dans les corpus. Exclues sont les coupures nécessaires que nous avons pratiquées pour que les corpus soient exactement de la même étendue.
3. Quelques résultats
Nous ne sommes pas encore arrivée à des analyses nous permettant de décrire la "langue de spécialité" du JO. Ce que nous pouvons présenter, ce sont les premiers résultats quantitatifs, qui constituent plutôt un point de départ nouveau : faut-il des corpus de plus grande étendue que les nôtres ? Est-il possible de saisir les caractéristiques d'un genre avec la méthode choisie ? Dans quelle mesure les données quantitatives se prêtent-elles à des analyses qualitatives ?
Il faut souligner que les résultats quantitatifs seront ici présentés dans une perspective neutre et que pour l'instant les quatre corpus sont "égaux" du point de vue de notre intérêt.
3.1. Longueur moyenne de la phrase, de l'alinéa et de la proposition
La longueur moyenne des phrases peut contribuer à caractériser le style des quatre genres que nous étudions (cf. Brunet 1981 ; Engwall 1991). Dans ce contexte, il faut souligner que ce sont les signes de ponctuation qui "définissent" les termes, c'est-à-dire que pour obtenir la longueur moyenne de la phrase, de l'alinéa et de la proposition, nous avons divisé le nombre d'occurrences par le nombre de signes de ponctuation.
La longueur moyenne des phrases du JO est impressionnante 31 occurrences par phrase par rapport aux autres corpus, dont le FREC et le ROMAN ont les phrases les plus courtes de 14 occurrences en moyenne. La longueur des phrases du JO n'est pas surprenante pour ceux qui sont tant soit peu familiers avec la prose de l'Union européenne. Dans le Traité de Maastricht, ou Traité sur l'Union européenne pour utiliser le titre officiel, les phrases sont encore plus longues de plus de 36 occurrences en moyenne selon une étude récente (Allstig Lamos 1996, p. 23).
Or, si la longueur moyenne des phrases semble distinguer nos corpus les uns des autres, il n'en est pas de même lorsque nos résultats sont mis en rapport avec ceux obtenus dans d'autres études de la phrase. Citons à titre d'exemple une longueur moyenne de 39 occurrences par phrase dans une allocution radiodiffusée du général de Gaulle (Cotteret & Moreau 1969 d'après Engwall, 1974, p. 31). Mentionnons aussi quelques romanciers qui, selon Brunet (1983, p. 124), diffèrent sensiblement de ceux qui font partie de notre corpus ROMAN. Dans A la recherche du temps perdu, la longueur moyenne des phrases est de près de 31 occurrences ; dans Émile, elle est de 28 occurrences ; chez Chateaubriand elle en est de 22 ; dans les romans de Giraudoux elle atteint près de 21 occurrences.
Il est donc clair qu'en soi la longueur moyenne des phrases ne constitue aucun trait stylistique évident et qu'il nous faudra une mesure plus complexe que celle dont nous nous sommes servie (cf. Ljung, à paraître, qui cite plusieurs études récentes relatives à la longueur de la phrase en anglais). Quant au JO, il faut, en plus, tenir compte d'une part de l'emploi fréquent de phrases stéréotypées, de l'autre de la mise en pages, qui est aussi importante que les signes de ponctuation (voir Östman 1993, pp. 21-27).
3.2. Richesse lexicale
Les quatre corpus sont exactement de la même étendue : 233 796 occurrences chacun. Par contre, ces occurrences réunies en types font ressortir des corpus d'aspects très différents. D'un côté, il y a les corpus journalistique et littéraire avec plus de 20 000 types, de l'autre les deux corpus supposés représenter le degré le plus élevé de langue de spécialité, où le nombre de types reste inférieur à 15 000 et approche même de 10 000 en ce qui concerne le JO. Du point de vue quantitatif, il est donc incontestable que le lexique du JO et du FREC est considérablement plus "pauvre" que celui du ROMAN et de l'EXMO comme on pouvait s'y attendre.
Si l'on considère les chiffres arabes comme contribuant peu à "la richesse lexicale", le JO et le FREC sont d'une pauvreté encore plus remarquable comparés à l'EXMO et au ROMAN. Cela vaut surtout pour le JO, dont le nombre de types, à l'exception des chiffres arabes, ne monte qu'à environ la moitié de ceux de l'EXMO et du ROMAN. Nous pouvons en outre constater que les chiffres arabes enlevés, le ROMAN dépasse légèrement l'EXMO en richesse lexicale.
Pour nous faire une idée de l'importance à accorder à la distinction entre majuscules et minuscules, nous avons compté les types de deux manières. Un premier comptage a été effectué par ordinateur, où aucune distinction n'a été faite entre majuscules et minuscules. Pour arriver à des listes, où des homonymes comme "Français" et "français", etc. constituent deux types distingués l'un de l'autre, au contraire de "Mais" en tête de phrase et "mais" à l'intérieur de la phrase, que nous avons choisi de considérer comme des occurrences d'un seul type, nous avons dû avoir recours à une combinaison "manuelle" de deux traitements séparés. Sous réserve des erreurs et des imprécisions inhérentes à ce type de manipulation, nous osons constater que la distinction entre majuscules et minuscules est de faible intérêt dans nos corpus : au total moins de 500 sur plus de 43 000 types, soit moins de 1 % des types, sont des types ajoutés parce qu'ils sont entièrement ou partiellement écrits en majuscules. Vu ces résultats, la distinction entre majuscule et minuscule n'est guère rentable.
3.3. Types communs
Pour voir dans quelle mesure le vocabulaire des quatre genres diffère ou est identique, nous avons étudié quelle est la compréhension des types d'un certain corpus dans les trois autres, et nous pouvons constater, quant au corpus respectivement le plus "pauvre", le JO, et le plus "riche", le ROMAN, qu'il s'agit là de deux langages de caractère différent : les types du JO ont une compréhension inférieure à 75 % dans le ROMAN, et, vice versa, les types du ROMAN réunissent moins de 80 % des occurrences du JO. Dans toutes les autres combinaisons, les types d'un corpus, ceux étudiés séparément, réunissent plus de 81 % des occurrences de chacun des trois autres corpus. Les résultats quantitatifs confirment ainsi notre hypothèse que c'est entre le vocabulaire du JO et celui du ROMAN que l'écart est le plus grand.
Au total, environ 3 000 types se retrouvent dans les quatre corpus. Ces 3 000 types couvrent environ 75 % des occurrences de chaque corpus. Dans le ROMAN, la compréhension des types communs aux quatre corpus est inférieure à la moyenne encore une indication de la richesse lexicale relativement grande de ce corpus par rapport aux autres.
Les types communs à trois corpus et manquant dans un quatrième confirment l'impression que c'est entre le JO et le ROMAN que la différence est la plus grande en ce qui concerne le vocabulaire. Dès que le JO et le ROMAN constituent deux des trois, il y a moins de 500 types communs aux trois corpus en question, types ne couvrant que moins de 1 % des occurrences des corpus, sauf exception ; et dès que soit le JO soit le ROMAN est enlevé, le nombre de types communs monte à environ 1 700, et la compréhension dans les corpus s'élève à entre 4 % et 10 % des occurrences.
La différence entre le JO et le ROMAN ressort encore une fois nettement quand on considère combien de types, absents dans les deux autres corpus, sont communs à nos corpus supposés "extrêmes" : seulement environ 400 types n'ayant presqu'aucune compréhension dans les corpus (0,4 % des occurrences).
Plus étonnant est que relativement peu de types (870), manquant dans les autres corpus, soient communs au JO et au FREC. Certes, c'est plus que le double en comparaison des 400 types communs au JO et au ROMAN, mais on pouvait s'attendre à des chiffres plus élevés pour les corpus censés être apparentés. Évidemment, le fait qu'il s'agit là des deux corpus les plus "pauvres" en types doit en partie expliquer ces résultats.
Globalement, c'est quand le JO constitue l'un des deux corpus que les chiffres sont le plus bas, et c'est quand l'EXMO, le corpus journalistique, est l'un des deux que les chiffres sont le plus élevés. Il n'y a que dans la combinaison de l'EXMO et du ROMAN, c'est-à-dire des deux corpus les plus "riches", que les types communs représentent plus de 11 % des types du corpus. Mais nous pouvons constater que la compréhension de ces types reste assez faible : moins de 2,5 % des occurrences de l'EXMO, ce qui veut dire une compréhension presque égale à celle qu'ont les types que l'EXMO a en commun avec le FREC.
Tout cela appuie l'idée que le vocabulaire du JO n'est pas seulement relativement "pauvre" mais aussi qu'il est spécifique. Pourtant, comme nous le verrons dans la section suivante, le JO ne l'emporte pas dans le domaine des types spécifiques ni en nombre absolu, ni en proportion des types.
3.4. Types spécifiques
Par types spécifiques nous entendons les types qui ne figurent que dans un des quatre corpus.
Les corpus se rangent suivant le nombre de types spécifiques dans le même ordre que suivant le nombre total des types, les chiffres arabes exceptés (cf. ci-dessus, section 3.2). Dans trois des quatre corpus, les types spécifiques constituent au moins un tiers des types du corpus en question. L'exception est fournie par le FREC, où les types spécifiques ne montent qu'à moins de 30 % des types. Dans l'EXMO et le ROMAN ces proportions sont nettement plus grandes que dans le JO et le FREC.
La compréhension des types spécifiques n'est pas insignifiante dans les corpus : entre 4 % et 11 % des occurrences.
Parmi les types spécifiques, le taux des hapax (types ayant la fréquence un) est relativement élevé comme on pouvait s'y attendre. Les hapax spécifiques (c'est-à-dire les types qui sont hapax dans un certain corpus et qui ne sont représentés dans aucun des autres corpus) constituent environ 20 % des types du JO et du FREC et plus de 30 % des types de l'EXMO et du ROMAN. Environ la moitié (ou davantage) des hapax d'un corpus sont des hapax spécifiques.
La compréhension des hapax spécifiques n'est cependant pas impressionnante ; elle est de 3 % des occurrences au maximum.
4. Conclusion
La comparaison quantitative entre les quatre corpus n'a abouti qu'à des résultats prévisibles : les phrases, etc. sont considérablement plus longues dans le JO que dans les autres genres, et la prose des journalistes et des romanciers est plus riche en types, plus variée que celle utilisée dans les manuels de français commercial et dans les actes législatifs des Communautés européennes. Que le JO et le ROMAN semble constituer les deux extrêmes ne doit pas surprendre non plus. On le savait déjà. Pour caractériser vraiment les genres et les distinguer les uns des autres il faudra exploiter davantage les données de sorte à dégager la structure des phrases et du vocabulaire. Des études sémantiques révéleraient probablement des différences à l'égard des types communs aux quatre corpus, tout comme une lemmatisation des corpus feraient sans doute "disparaître" beaucoup de types spécifiques.
Références
Allstig Lamos, G. (1996). Traité de Maastricht. Caractéristique d'un genre. Expressions de la norme juridique. Thèse de phil.lic. Université de Stockholm : Département de français et d'italien.
Brunet, E. (1981). Le vocabulaire français de 1789 à nos jours d'après les données du Trésor de la langue française, 1-3. In Travaux de linguistique quantitative, 17. Genève-Paris : Slatkine-Champion.
Brunet, E. (1983). Le vocabulaire de Proust, 1-3. In Travaux de linguistique quantitative, 18. Genève-Paris : Slatkine-Champion.
Edmar, I. (1992). Les acronymes dans trois manuels scolaires en français commercial. Considérations en vue d'une étude de fréquence. FREC Rapport 3. Université de Stockholm : Département de français et d'italien.
Edmar, I. (1997). Le sigle Emploi et formation dans la législation communautaire. Thèse de phil.lic. Université de Stockholm : Département de français et d'italien.
Engwall, G. (1974). Fréquence et distribution du vocabulaire dans un choix de romans français. Stockholm : Skriptor.
Engwall, G. (1984). Vocabulaire du roman français (1962-1968). Stockholm : Almqvist & Wiksell International.
Engwall, G. (1991). À la poursuite du style romanesque. In Zampolli, A. (ed). Linguistica computazionale. Computational lexicology and lexicography 1. Pisa : Guardini, pp. 267-295.
Engwall, G. & Bartning, I. (1989). Le COSTO description d'un corpus journalistique. Moderna språk, 83 : 4, pp. 343-348.
Laurén, Ch. & Nordman, M. (1987). Från kunskapens frukt till Babels torn. En bok om fackspråk. Stockholm : Liber.
Ljung, M. (à paraître). Text complexity in British and American newspapers.
Östman, M. (1993). Étude quantitative du vocabulaire dans huit documents publiés dans le Journal officiel des Communautés européennes (JO) 1988-1991. FREC Rapport 6. Université de Stockholm : Département de français et d'italien.
Östman, M. (à paraître). JO æ Description d'un corpus basé sur des documents publiés dans le Journal officiel des Communautés européennes (JO) 1988-1993 (titre provisoire). Projektrapport. Université de Stockholm : Département de français et d'italien.
Riegel, M. & Pellat, J.-Ch. & Rioul, R. (1994). Grammaire méthodique du français. Linguistique nouvelle. Paris : Presses Universitaires de France.
Sandqvist, M. (1994). La lemmatisation de textes français æ considérations sur les possibilités de lemmatisation automatique. Mémoire. Université de Stockholm : Département de français et d'italien.
Sandqvist, M. (1997). Huit documents du Journal officiel des C.E. Essai de lemmatisation et observations. Mémoire. Université de Stockholm : Département de français et d'italien.
Stöök, S. (1991). Om konkordanser och frekvensstudier med WordCruncher. Exempel från en fransk textkorpus. FREC Rapport 1. Université de Stockholm : Département de français et d'italien.
Tullgren, M. (1997). La parole publicitaire dans un corpus de presse française. Analyses lexicométriques. Thèse de phil.lic. Université de Stockholm : Département de français et d'italien.