Sommaire des JADT 1998   

QUATRE (UN ?) CORPUS — QUATRE GENRES. QUELQUES RÉSULTATS

 

Margareta Östman

Département de français et d'italien

Université de Stockholm

S-106 91 Stockholm, Suède

e-mail : Margareta.Ostman@rom.su.se

 

Summary

The aim of this paper is to present some quantitative results of a comparison between four machine-readable corpora representing four different genres, viz. 1) ROMAN : Extracts from French novels published between 1962 and 1968; 2) FREC : Textbooks in commercial French for French students, published between 1974 and 1977; 3) EXMO : Articles, etc. on financial matters, published in l'Express and le Monde between 1987 and 1988; and 4) JO : Documents published between 1988 and 1993 in the French version of the Official Journal of the European Communities. The study concerns the average length of the sentences, paragraphs and clauses, the number of unique types, the proportion of Arabic numerals and, finally, the distribution of the unique types in the four corpora.

1. Introduction — genres de texte étudiés

Au département de français et d'italien de l'université de Stockholm nous travaillons depuis les années 60 sur des corpus informatisés : Engwall (1974 et 1984) a établi un corpus de best-sellers français ; dans les années 70, un corpus de manuels de français commercial (le FREC) a été établi (Stöök 1991 ; Edmar 1992), et, il y a dix ans, notre département a établi un corpus journalistique (le COSTO-PRESSE) en collaboration avec les sections françaises d'autres universités suédoises (Engwall & Bartning 1989 ; Tullgren 1997). C'est dans cette tradition, entre autres, que s'inscrit le projet dont je parlerai et dans lequel sont engagés plusieurs doctorants (Allstig Lamos 1996 ; Edmar 1992, 1997 ; Sandqvist 1994, 1997).

Avec le présent projet, nous espérons pouvoir contribuer tant soit peu à la description d'une "langue de spécialité" : le français officiel des Communautés européennes. Pour saisir ce qui caractérise ce français, nous avons opté pour une étude comparative (cf. Laurén & Nordman 1987), où un corpus informatisé d'actes des Communautés européennes sera comparé avec trois autres corpus informatisés représentant des genres différents. Les quatre corpus ont exactement la même étendue : 233 796 occurrences chacun. Il s'agit des corpus et des genres suivants :

1 ROMAN : extraits de romans français publiés entre 1962 et 1968 ;

2 FREC : manuels de français commercial publiés entre 1974 et 1977 ;

3 EXMO : pages économiques de treize numéros de L'Express et de treize numéros du Monde parus entre mars 1987 et février 1988, dont onze sur treize datent de 1987 ;

4 JO : actes législatifs des Communautés européennes datant des années 1988-1993.

Nous ne tiendrons pas compte du décalage temporel dans la comparaison des quatre corpus mais les considérerons comme étant des corpus du français moderne de l'époque