Michel Bernard
Université de la Sorbonne-Nouvelle (Paris III)
A juste titre
Une approche lexicométrique de la titrologie
[Cet article a paru, en anglais, sous le titre " À juste titre
: a lexicometric Approach to the Study of Titles ", Literary and Linguistic
Computing, vol. 10, n°2, 1995, pp. 135-141].
Connaissez-vous la titrologie ? Cette discipline de l'histoire littéraire,
si elle réduit son champ à l'étude des titres d'oeuvres,
n'en connaît pas moins un succès indiscutable depuis près
de trente ans. Leo H. Hoek pouvait déjà, en 1981, proposer
une bibliographie de onze pages sur le sujet et mes propres investigations
me laissent à penser que la titrologie s'est, depuis, enrichie d'un
nombre de références presque équivalent. Mon propos
ne sera donc pas d'innover, dans un domaine aussi fréquenté
des études littéraires, mais simplement de montrer ici ce
que peuvent apporter à la titrologie les outils informatiques.
Il existe déjà quelques études de ce type. Mais
elles ne portent que sur des corpus limités dans le temps : les
titres surréalistes, les romans publiés entre 1815 et 1832
ou à l'époque révolutionnaire. Du reste, tous les
corpus étudiés par la titrologie sont, bien que souvent volumineux,
toujours limités dans le temps et visent à une certaine forme
d'exhaustivité. Je me propose ici d'étudier un corpus de
2020 titres représentant l'ensemble de la littérature de
langue française, de La Cantilène de Sainte Eulalie
(880) jusqu'à Fleur de ruines de Patrick Modiano (1991).
Ce corpus est celui de la Banque de Données d'Histoire Littéraire
(BDHL), élaborée par une équipe d'enseignants de l'Université
de la Sorbonne Nouvelle - Paris III, sous la direction d'Henri Béhar.
En dehors des titres d'oeuvres, cette banque stocke un grand nombre de
données sur les auteurs, les éditeurs, les thèmes,
les événements, les mouvements, les prix, tous ces faits
qui constituent l'histoire littéraire.
Ces 2020 titres ne constituent, on s'en doute, qu'une sélection
assez restrictive. Comment s'est opéré le tri ? Nous n'avons
recensé que les oeuvres les plus connues, c'est-à-dire, pratiquement,
celles qui figurent dans les manuels et les programmes scolaires, dans
les histoires littéraires, dans les encyclopédies, les dictionnaires,
celles qui ont été primées, ou adaptées au
cinéma, celles qui sont le plus souvent rééditées,
qui font l'objet de publications populaires (livre de poche) ou au contraire
savantes (éditions critiques). La liste ainsi obtenue n'est pas
théoriquement satisfaisante, on le conçoit. C'est pourtant
elle qui constitue notre panthéon littéraire actuel, l'image
de la littérature française telle que nous la lisons, telle
que nous la transmettons, telle que nous l'étudions aujourd'hui.
Toutes les conclusions que nous pourrons tirer de l'analyse des titres
de ce corpus devront donc être envisagées de ce point de vue,
qui est celui de la réception.
Voyons maintenant ce que nous apporte l'analyse informatique des titres.
2020 titres, c'est tout simplement, pour l'ordinateur, un texte de 2020
lignes, qui peut être analysé par les moyens désormais
classiques de la lexicométrie. L'ordinateur ne reconnaît que
des formes, c'est-à-dire, grossièrement, des suites de lettres
séparées par des blancs ou des ponctuations. Histoire
et Histoires, par exemple, sont deux formes différentes pour
la machine. Il y a 2842 formes différentes dans nos titres, et elles
représentent 7924 occurrences. C'est donc à un texte assez
court que nous avons affaire. Disons, à titre de comparaison, que
c'est l'équivalent de deux chapitres d'un roman. Mais les quantités
sont néanmoins suffisantes pour que l'on puisse utiliser des méthodes
statistiques, à condition de ne pas aller trop dans le détail.
L'index hiérarchique
Regardons d'abord l'index hiérarchique : les formes les plus
fréquentes, comme dans n'importe quel texte, sont des mots-outils
: de, la, le, les, l', et, du, des, d', sur, ou, un, en, à.
Il faut, pour lire cette liste, la comparer avec celle que l'on trouve
habituellement dans les corpus littéraires : de, la, et, le,
à, l', les, il, un, d', que, des, en, une, je. On remarque en
particulier que la conjonction ou pronom relatif que est peu fréquent
dans les titres, dont la syntaxe ne connaît guère la phrase
complexe. L'article indéfini (un, une) y est bien plus rare
(il ne devient plus fréquent qu'au XXème siècle) :
le titre pointe sur un secteur de la réalité qu'il délimite.
Nous constatons également que le système d'énonciation
du titre exclut la pronominalisation (il, je). Le titre étant
la première phrase du texte, il ne peut se référer
à un contexte. L'importance de la conjonction ou s'explique
par la présence de sous-titres, spécialement aux XVIIème
et XVIIIème siècles. L'ambiguïté de certains
de ces mots-outils ne permet pas, à ce stade, de pousser plus loin
l'analyse grammaticale des titres, celle dont Michel Butor évoque
ainsi la possibilité : " On pourrait faire une étude méthodique
des titres, parce que dans le titre il y a une micro-grammaire, et une
micro-grammaire énormément grossie ". L'étude de cette
" micro-grammaire ", dont on trouvera les éléments dans le
travail de Léo H. Hoek, nous entraînerait trop loin ici parce
qu'elle impliquerait un codage supplémentaire du corpus. Il me suffit
d'avoir montré les commodités que l'informatique pourrait
apporter à ce type de recherche.
Venons-en à l'analyse sémantique des titres. Les premiers
substantifs de l'index hiérarchique sont à ce propos les
plus intéressants. On trouve, dans l'ordre, histoire, vie, mémoires,
homme, roman, journal, voyage, poésies, lettres, contes, discours,
poèmes, amour, oeuvres, France, Paris. Je n'ai gardé
ici que les formes qui apparaissent au moins 15 fois. On constate qu'il
s'agit en majorité de termes désignant le genre de l'oeuvre,
appartenant à ce que Gérard Genette appelle des titres rhématiques,
qui indiquent ce qu'est le livre, et non ce dont il parle. Appartiennent
à des titres thématiques, au contraire, les formes
vie, homme, amour, France, Paris. Comparons cette liste, comme précédemment,
avec les substantifs les plus fréquents de la langue littéraire
: homme, vie, femme, temps, jour, yeux, monde, fois, monsieur, coeur,
tête, Dieu, chose, père, air, jours. Cette confrontation,
si elle nous permet de relativiser les hautes fréquences de homme
et de vie, fait sauter aux yeux les particularités de certains
termes : outre les termes génériques, on relève amour,
beaucoup plus fréquent dans les titres, et femme qui, à
l'opposé, est assez peu utilisé (dans 4 titres seulement
: L'Âne mort et la femme guillotinée (Janin), La
Femme et le pantin (Louÿs), La Femme pauvre (Bloy),
Journal d'une femme de chambre (Mirbeau). Les connotations assez péjoratives
de ces titres suggèrent que ce mot, dans son opposition avec dame,
pouvait paraître peu convenable pour désigner une héroïne
féminine (on relève au contraire beaucoup de patronymes féminins
dans les titres). Cependant, aucun des titres contemporains enregistrés
par la BDHL ne vient confirmer cette hypothèse.
Les spécificités
Mais le corpus des titres, que j'ai jusqu'ici considéré
comme un tout, n'est pas homogène. Je vais maintenant utiliser un
autre outil lexicométrique qui nous permettra de tenir compte des
différences de genre et d'époque des oeuvres étudiées.
Il s'agit du calcul des spécificités. C'est un outil statistique
qui permet d'évaluer la fréquence d'une forme dans une partie
du corpus, relativement à la taille de cette partie. Un exemple
sera sans doute plus clair. La forme voyage apparaît 23 fois
dans le corpus, dont 11 fois dans les titres du XIXème siècle.
Or ceux-ci représentent 25 % du volume total. Par conséquent,
on attendrait que la forme voyage ait 25 % de ses occurrences dans
cette partie, soit à peu près 6. Les probabilités
pour qu'on en trouve 11 étaient donc assez faibles et cet effectif
constitue une spécificité positive. Elle est exprimée
sous forme de probabilité (comprise en 0 et 1) : ici, 1.4E-02, soit
0,014. Cette valeur permet de comparer les spécificités entre
elles. Le terme littérature, par exemple, a une spécificité
au XIXème de 2.7E-02, soit 0,027. Sa fréquence dans cette
sous-partie est donc deux fois plus probable, donc deux fois moins spécifique
que celle de voyage. On peut à l'inverse trouver des spécificités
négatives, quand une forme est sous-représentée dans
une partie.
Munis de cet outil, voyons si certaines époques utilisent certains
termes de manière préférentielle ou si, au contraire,
elles les rejettent. Voici le tableau des spécificités par
siècles (le Moyen Age a été globalisé) :
Moyen Age
Positives : roman, lyrique, de, poésie, jeu, rose, chanson,
farce, princes, chansons, saint.
Négatives : -
XVIème
Positives : amours, langue, oeuvres, essais, psaumes, temple,
discours, livre, chroniques.
Négatives : -
XVIIème
Positives : funèbre, oraison, prononcée, comique,
oeuvres, partie, vers, église, princesse, épîtres,
poème, poétique, satires, vérité, chrétiennes,
dictionnaire, éloquence, des, ce.
Négatives : un.
XVIIIème
Positives : sur, M, ou, lettres, mémoires, lettre, nature,
considérations, depuis, duc, éloge, encyclopédie,
jusqu', plus, principes, Rousseau, à, histoire.
Négatives : -
XIXème
Positives : les, chansons, scènes, correspondance, Italie,
chants.
Négatives : -
XXème
Positives : pour, nuit, Dieu, guerre, Tintin, un, est.
Négatives : de, histoire, sur, lettres, M, et, oeuvres,
France, amours, chansons, ou, française, vers.
L'analyse complète de ce tableau demanderait beaucoup plus de
temps que ce qui m'est imparti et je me contenterai de quelques remarques.
Attention d'abord aux trompe-l'oeil statistiques. Si certaines périodes
ont plus de spécificités que d'autres, c'est aussi parce
qu'elles représentent un plus grand nombre d'oeuvres dans la BDHL.
Certaines oeuvres se présentent en série. Les sept oraisons
funèbres de Bossuet, toutes prononcées en l'église
de... pèsent lourd sur les spécificités du XVIIème
siècle, de même que les six albums d'Hergé où
figure le nom de Tintin. Mais les termes, ceux qui relèvent
de la rhématique comme ceux qui relèvent de la thématique,
montrent bien les préoccupations et les formes favorites de chaque
époque : religieuses du Moyen Age au XVIIème siècle,
puis au XXème, linguistiques au XVIème. On peut suivre sur
ce point l'appréciation de Jean-Louis Flandrin : " Au niveau des
titres, on retrouvera les notions qui s'affichent [...] les notions les
plus valorisées de la civilisation ". Les mots-outils peuvent, par
leurs spécificités, nous éclairer sur les formes que
prennent les titres. Le de est fréquent au Moyen Age. Il
ne s'agit pas cependant du de à la latine mais de compléments
de détermination, par exemple dans les noms propres (Huon de
Bordeaux, Raoul de Cambrai) ou dans l'attribution du texte à
son héros éponyme (Le Roman de Renart, La Chanson de Roland).
Le XVIIIème trahit, avec la spécificité de la préposition
sur, son goût pour les traités, dissertations, discours
et autres réflexions sur un sujet donné. Le XIXème
siècle affectionne les titres commençant par les (Les
Chimères, Les Cariatides, Les Châtiments,...). On voit
apparaître au XXème siècle les titres-phrases comportant
le verbe être : Il est minuit docteur Schweitzer, La Mort est
mon métier, etc... On trouve aussi, à la même époque,
l'usage, uniquement moderne, de la préposition pour : Bagatelles
pour un massacre (Céline), Des Clientes pour
la morgue (Dard), Du Mouron pour les petits oiseaux (Simonin),
Pour Lucrèce (Giraudoux), Pour un nouveau roman
(Robbe-Grillet), Trente chantefables pour les enfants sages
(Desnos), Un Arc-en-ciel pour l'occident chrétien
(Despestre), Une Tempête - Adaptation de La Tempête
de Shakespeare pour un théâtre nègre (Césaire),
Vol 714 pour Sydney (Hergé). Je cite intégralement
ce mini-corpus pour montrer combien l'utilisation d'une concordance peut
faciliter ce type d'étude. On perçoit bien à travers
ces quelques exemples la profonde ambiguïté du titre littéraire,
cette ambiguïté qui explique l'attrait des chercheurs pour
la titrologie. Que désigne-t-il, en effet, cet énoncé
liminaire qui ouvre (ou parfois interdit) toute lecture. Le titre est un
énoncé elliptique, auquel on supplée comme on peut
- comme on veut. Le pour suggère parfois la destination de
l'oeuvre elle-même, son objectif (Pour un nouveau roman),
son utilisation (Adaptation de La Tempête de Shakespeare
pour un théâtre nègre), son public (Trente chantefables
pour les enfants sages). Mais l'ambiguïté est souvent suffisamment
profonde et riche pour que les difficultés qu'elle oppose au lecteur
se muent en programme de lecture. Le recueil de poèmes de Depestre
est-il un arc-en-ciel offert (ou jeté) à l'Occident, l'Occident
le prendra-t-il pour tel ? Le "prélude" qui ouvre le livre ne lève
pas la difficulté :
"Oui je suis un nègre-tempête
Un nègre-racine-d'arc-en-ciel"
L'arc-en-ciel, fils de la tempête mais gage de réconciliation,
invite lui aussi à bien des hypothèses interprétatives.
On retrouve là le titre qui "embrouille les idées", que Umberto
Eco appelle de ses voeux. Le Pour Lucrèce giralducien est
encore plus complexe. On peut donner, même après avoir lu
la pièce, toutes les significations à cette préposition
: la pièce est un plaidoyer pour la vertu, incarnée par Lucile/Lucrèce,
ou elle est offerte à Lucrèce, ou tout ce qui s'y déroule
est fait pour Lucrèce, objet de tous les désirs, ou Lucile
se prend pour Lucrèce. Mais le titre peut aussi être synonyme
de "en ce qui concerne Lucrèce", "à la place de Lucrèce",
"au nom de Lucrèce",... Sans doute le modèle romain doit-il
aussi nous faire penser à la tournure des titres de Cicéron
(Pro Murena, Pro Milone,...). L'ambiguïté fondamentale
de tout titre, c'est que l'on ne sait s'il parle du livre ou de ce qu'il
raconte, du signifié ou du signifiant.
Une autre périodisation
On aurait pu également opérer d'autres découpages
chronologiques, suivant les traditionnelles mais tout aussi arbitraires
périodisations qui fleurissent dans nos histoires littéraires.
Je me permettrai même d'en proposer une nouvelle, qui tient compte
d'un facteur qui n'a jamais été utilisé jusqu'à
maintenant : le nombre d'oeuvres produites. Si l'on découpe par
exemple l'histoire de la littérature française en douze périodes
dont chacune a produit un douzième des oeuvres recensées
par la BDHL, on obtient le tableau suivant (je n'indique plus que les spécificités
positives) :
880-1593 : de, roman, lyrique, jeu, poésie, amours,
livre, chroniques, oeuvres, honneur, poétiques.
1594-1673 : comique, partie, oeuvres, vers, satires, mort, chrétiennes,
éloquence, histoire, nouvelles, poème, poésies.
1674-1768 : sur, dictionnaire, lettres, histoire, funèbre,
oraison, lettre, encyclopédie, vérité, mémoires,
prononcée, église, philosophe, de, à, réflexions.
1769-1830 : ou, nature, sur, société, et, ses,
par, philosophique, théorie, dans, considérée, état,
génie, religieux, tableau, religion, pouvoir, social, siècle.
1831-1863 : mystères, un, chants, voyage.
1864-1889 : chansons.
1890-1910 : époque, amoureuse, chambre, femme, histoires,
route, le.
1911-1926 : feu, chez, à.
1927-1939 : journal, Tintin, fille, sang, actes, pays, pièce,
comédie, II.
1940-1951 : -
1952-1963 : anthologie, écrits, volume, pour.
1964-1991 : -
Voici un tableau qui ne peut manquer de susciter des questions. Passons
sur le découpage chronologique. On avouera simplement qu'il en vaut
bien d'autre et que la mort de Molière, la naissance de Napoléon,
la bataille d'Hernani ou la fin de la guerre d'Algérie constituent
des bornes qui, pour être aléatoires, n'en sont pas moins
fort acceptables. Le plus surprenant, c'est que le nombre de termes spécifiques
va de 0 à 19. Le phénomène était beaucoup moins
sensible avec la première périodisation parce que chaque
siècle représentait des effectifs d'oeuvres très différents.
Qu'est-ce à dire ? Une période à laquelle ne correspond
aucune forme spécifique est une période dont les titres utilisent
le vocabulaire moyen de l'ensemble des titres de la littérature
française. Le phénomène s'accroît en s'approchant
de notre époque. On ne peut émettre que deux hypothèses
pour expliquer ce fait statistique : soit les titres du XXème siècle
utilisent volontairement le vocabulaire qui a déjà été
attesté dans d'autres époques, soit nous n'avons gardé
que les titres qui correspondent à nos usages modernes, oubliant
ou refaisant ceux qui n'entraient pas dans le moule.
N'oublions pas en effet à ce stade que la plupart des titres
antérieurs au XIXème ont été refaits. Certains
sont même des créations pures et simples : les textes médiévaux
ne portaient pas de titres (l'usage de la page de titre ne date que des
années 1475-1480) et jamais Raimbaud d'Orange n'a écrit des
Oeuvres poétiques. Pour prendre des exemples plus récents,
Le Philosophe sans le savoir de Sedaine a été publié
sous le titre Le Duel, la Nouvelle Héloïse était
primitivement intitulée Lettres de deux amants habitants d'une
petite ville au pied des Alpes. La BDHL recense les titres originaux
mais je n'ai tenu compte dans cette étude que des titres usuels.
Longueur des titres
Un autre phénomène, plus aisément explicable, apparaît
grâce à ce découpage. Bien que le nombre d'oeuvres
soit sensiblement le même pour chaque période, le nombre de
formes effectivement décomptées est très variable.
Voici un graphique donnant le nombre moyen de formes par titre pour chaque
période :
Les titres des XIXème et XXème siècles sont nettement
plus courts que ceux des XVIIème et XVIIIème. Ce qui a été
dit plus haut sur la réfection des titres antérieurs au XVIIème
laisse penser qu'ils ont été mis aux normes modernes : les
oeuvres de la période 880-1673 ont en effet la même longueur
que les titres plus récents. Les titres usuels des romans de Rabelais,
par exemple, Gargantua et Pantagruel, sont des abréviations
modernes des titres authentiques : La vie très horrificque du
grand Gargantua, père de Pantagruel - Jadis composée par
M. Alcofribas, abstracteur de quinte essence - Livre plein de pantagruélisme
et Pantagruel, roy des Dipsodes, restitué en son naturel avec
ses faictz et prouesses espoventables, composéz par feu M. Alcofribas,
abstracteur de quinte essence. Ces titres de la Renaissance, qui, selon
nos canons modernes, tiennent lieu de titre, de sous-titre, de signature
et de quatrième page de couverture ont été systématiquement
abrégés. Nous avons été plus respectueux de
ceux de l'âge classique parce qu'ils sont de véritables titres,
bien que très analytiques (Considérations sur les causes
de la grandeur des Romains et de leur décadence), ou parce qu'ils
sont soigneusement structurés en titre et sous-titre (La Vie
de Marianne ou les aventures de Madame la comtesse de ***), ce qui
légitime l'utilisation du seul titre.
Oeuvres homonymes
On arrive à la même constatation si l'on recherche systématiquement
les oeuvres homonymes. Elles se divisent nettement en deux catégories
: les reprises volontaires de titres, dans un but parodique ou pour se
situer dans une tradition, et les homonymies provenant de l'attribution
d'un titre générique à certaines oeuvres anciennes,
réunies ou rebaptisées par les éditeurs modernes.
On peut classer dans la première série les reprises de thèmes
anciens : les Antigone de Garnier (1579) et d'Anouilh (1947), La
Psyché de Molière (1671) et celle de Pierre Louÿs
(1927), L'Ecole des femmes de Molière (1663) et celle de
Gide (1929) ; les thèmes à la mode qui ont suscité,
à une même époque, l'émulation des écrivains
: Les 150 psaumes de David de Marot (1560) et de Desportes (1603),
Coelina ou l'enfant du mystère, dans les versions de Pixérécourt
(1800) et de Ducray-Duminil (1803), qui, quelques années plus tôt,
avaient déjà donné tous deux un Victor ou l'enfant
de la forêt, respectivement en 1797 et 1798, De L'Amour
de Senancour (1806) et de Stendhal (1822), Les Satires de Regnier
(1608) et celles de Boileau (1666), la Marianne de Hardy (1625)
et celle de Tristan l'Hermite (1637), le Voyage en Italie de Stendhal
(1813) et celui de Taine (1866), la Jeanne d'Arc de Péguy
(1897) et celle de Delteil (1925). En revanche, certaines homonymies ne
sont dues qu'au peu d'imagination des éditeurs modernes : les Mystère
de la Passion de Michel (1490) et de Gréban (1537) ne portaient
évidemment pas ce titre à l'origine, les Mémoires
de Commynes (1489), La Rochefoucauld (1662), Bussy-Rabutin (1696),
Retz (1717) et Bernis (1778) ont reçu un titre commun mais peu explicite
(la première édition de Commynes, en 1524, s'intitulait Chronique
et hystoire faicte et composée par feu messire Philippe de Commines,
la première édition intégrale du cardinal de Retz
portait Mémoires du cardinal de Retz contenant ce qui s'est passé
de plus remarquable en France pendant les premières années
du règne de Louis XIV), il en est de même pour la série
des Oeuvres (Marot, Labé, Brantôme), Oeuvres poétiques
(Raimbaud d'Orange, Jodelle, Viau, Dorat), Poésie lyrique
(Jaufré Rudel, Marcabru, Conon de Béthune, Thibaud de Champagne).
Ce sont, on le voit, les auteurs du Moyen Age et de la Renaissance qui
ont été le plus mal traités, dans la mesure où
ils n'avaient pas pris eux-mêmes la précaution d'apposer sur
leurs oeuvres cette étiquette que nous jugeons si importante.
Spécificités génériques
Nous avons vu jusqu'à maintenant les résultats d'une segmentation
chronologique du corpus, mais il est également possible de vérifier
si d'autres spécificités ne peuvent pas apparaître
suivant des axes différents. Le plus productif est celui des genres.
La BDHL, en effet, classe les oeuvres suivant trois niveaux de genre, de
plus en plus précis et combinables entre eux. Le premier niveau
est formel (Vers, Prose), le second est une typologie générale
(Fiction, Idées, Discours intime, Poésie, Théâtre)
et le troisième, le plus détaillé, reprend la terminologie
habituelle (Tragédie, Nouvelle, Récit de voyage, etc...).
C'est sur le second niveau que j'ai opéré une partition du
corpus, pour vérifier si ces catégories génériques
correspondaient à un vocabulaire des titres particulier. Voici le
tableau des spécificités positives les plus fortes :
Fiction : contes, roman, aventures, le, mer, Tintin, comte, noir,
époque, une, ou.
Idées : sur, française, discours, histoire, art,
essai, des, réflexions, langue, traité, littérature,
nature, épîtres, société, religion, ses, dictionnaire,
éloquence, poétique, politique, social, théorie, universelle,
volume, ce, critique, recherche, l', de.
Poésie : poèmes, poésies, odes, chansons,
poésie, chants, poétiques, complètes, lyrique, amours,
les, ode, psaumes, Pucelle, solitude, stances, oeuvres, et.
Théâtre : actes, école, pièce, deux,
jeu, mystère, imaginaire, moeurs, farce, Lucrèce, proverbes,
roi, théâtre.
Discours intime : journal, mémoires, souvenirs, tome,
voyage, correspondance, guerre, d', lettres, II, M, Italie, confessions,
duc, éloge, petite, Rousseau, si.
Les termes génériques qui figurent dans ces listes me
dispensent de préciser davantage ce que recouvrent les différentes
catégories. Il est plus intéressant de considérer
les termes thématiques. Ne pouvant évidemment pas viser à
l'exhaustivité, je me contenterai d'un seul exemple, celui de la
forme noir dans les oeuvres de fiction. La spécificité,
de 5.9E-03, correspond à une fréquence de 8 sur 10. Voici
les 8 titres d'oeuvres de fiction qui la contiennent :
· Le Rouge et le Noir (Stendhal,
1831)
· Le Sang noir (Guilloux, 1935)
· Le Musée noir (Pieyre
de Mandiargues, 1946)
· L'Enfant noir (Camara Laye,
1953)
· Le Pagne noir (Dadie, 1955)
· Kocoumbo l'étudiant noir
(Ake Loba, 1960)
· L'Oeuvre au noir (Yourcenar,
1968)
· Le Charme noir (Queffelec,
1985)
Et les deux titres qui ne correspondent pas à des oeuvres de fiction
:
· L'Homme noir (Xavier Forneret,
1835) : Théâtre
· Le Miroir noir (Gilbert-Lecomte,
1937) : Poésie
Les connotations du terme noir, dans ces titres, sont bien sûr
très différentes. Sa spécificité pour la fiction
me semble due essentiellement aux titres de romans africains (Camara Laye,
Dadie, Ake Loba). Ajoutons que la première nouvelle de Le Musée
noir présente un personnage de noir, Petrus. Ailleurs, le sens
est plutôt péjoratif, le noir étant, étymologiquement,
l'atroce. Ce genre de mot joue pleinement le rôle publicitaire
dévolu au titre. Même chez Stendhal, le mot noir, même
s'il peut représenter la prêtrise opposée à
l'état militaire, ne peut manquer d'évoquer chez le lecteur
de 1831, féru de "roman noir", une atmosphère que l'on retrouve
d'ailleurs dans la scène où Mathilde prend la tête
coupée de Julien sur ses genoux.
On peut également étudier les spécificités
en considérant le dernier niveau de genre. La BDHL en distingue
34, ce qui serait trop lourd à manier dans le cadre de cet aperçu.
Je propose de ne considérer que quelques genres théâtraux
: la comédie, le drame, la farce, l'opéra, la tragédie
et un genre indéfini (baptisé théâtre), regroupant
les oeuvres qui n'entrent dans aucune des catégories traditionnelles.
Voici la statistique complète de ce découpage :
Genre
|
Nombre d'oeuvres
|
Nombre de formes
|
Nombre de formes moyen
|
Spécificités positives
|
Comédie |
123
|
417
|
3,4
|
amour, école, femmes, moeurs |
Drame |
84
|
283
|
3,4
|
-
|
Farce |
12
|
46
|
3,8
|
farce, du |
Opéra |
6
|
28
|
4,6
|
M., en |
Théâtre |
34
|
132
|
3,9
|
une |
Tragédie |
71
|
141
|
2
|
Marianne, en, Lucrèce |
TOTAUX |
330
|
1047
|
3,2
|
- |
Les faibles effectifs représentés par ce corpus expliquent
la rareté des spécificités. Il n'en reste pas moins
que ces genres, obéissant pourtant à des règles bien
différentes, ne se différencient guère par leurs titres.
On repère plutôt dans la liste ci-dessus des paradigmes à
succès dans chaque genre : L'Ecole (des femmes, des maris,
des amis, des vieillards, des moeurs), La Farce (de Maître
Pathelin, du ténébreux, du pont-aux-ânes), les
pièces ...en x actes ; des patronymes souvent utilisés
: Marianne chez Tristan l'Hermite, Hardy, Marivaux et Musset, Lucrèce
chez Ponsard, Hugo et Giraudoux.
Mouvements littéraires
On n'oubliera pas en analysant ces phénomènes de spécificité
que les particularités liées au genre et à l'époque
peuvent interférer. Comme la poésie est le genre dominant
au Moyen Age, par exemple, il est normal que les spécificités
du genre et de l'époque soient parfois les mêmes : poésie,
chansons, lyrique. Mais la comparaison entre les deux est parfois suggestive.
La première place de la fiction au XXème siècle, par
exemple, ne se traduit pas par une identité des spécificités
entre les deux découpages. Pour cette raison, une partition tenant
compte des mouvements auxquels appartenaient les auteurs des oeuvres est
très redondante avec celle qui suit la chronologie :
Poètes libertins : Louis, histoire, états, règne,
solitude, XIV, poème.
Baroque : comique, Etats, solitude, partie.
Classicisme : funèbre, oraison, prononcée, église,
épîtres, nouvelles, de, école, épître,
poétique, vers, femmes, France, reine.
Groupe de l'Encyclopédie : depuis, Encyclopédie,
jusqu', Rousseau, sur, histoire, empire, ou, M., des, lettres, Louis, lettre,
qui, confessions, philosophique, plus, sous.
Romantisme : ses, Italie, religion, voyage, un et.
Naturalisme : une, époque, journal, Madame.
Parnassiens : poèmes, poésie, jamais.
Symbolisme : vers.
Décadentisme : chanson, moderne, roi.
Dadaïsme : anthologie, écrits, volume, art, manifeste,
mourir, sublime, surréalisme, poèmes, amour.
Surréalisme : anthologie, au, écrits, poésie,
corps, jeu, liberté, style, volume.
Nouveau Roman : l'.
Il faudrait également préciser que certaines partitions
ne donnent aucune spécificité. Mais cette nullité
des résultats est parfois tout aussi significative. Par exemple,
les titres des écrivains nés à Paris ne présente
aucune particularité notable par rapport à ceux qui sont
nés en province ou à l'étranger. C'est là une
preuve supplémentaire, pour l'analyser rapidement, du grand mouvement
d'unification nationale culturelle et linguistique dont la littérature
française a été un des champs d'action privilégiés.
Je n'ai pas testé, loin de là, toutes les partitions possibles
pour évaluer les spécificités qui en auraient découlé.
En particulier, j'ai laissé de côté tout ce qui concernait
la thématique des oeuvres, les différences de titres entre
les oeuvres originales et leurs adaptations, les particularités
des différents éditeurs, des prix littéraires, les
formats des éditions originales. La BDHL permettrait sans doute
de faire des constatations intéressantes dans ces domaines mais
ces investigations auraient dépassé la dimension modeste
que doit garder cet exposé. Par ailleurs, les corrélations
entre ces différents facteurs nous auraient sans doute donné
des résultats assez redondants par rapport à ce que nous
avons déjà constaté.
Mon objectif, je le rappelle était de montrer que toute étude
de titrologie devrait désormais, surtout si elle porte sur un corpus
assez large, s'appuyer sur les outils informatiques. Ceux que j'ai utilisés
ne sont d'ailleurs pas les seuls : la technique des segments répétés
ou celle des co-occurrences auraient tout aussi bien pu être mises
en oeuvre sur notre corpus. Il serait également possible de comparer
le vocabulaire des oeuvres avec le vocabulaire de leurs titres. La banque
FRANTEXT pourrait être mise à contribution pour ce travail.
Mais la question centrale de toute entreprise lexicométrique
est celle que j'annonçais au début de cet exposé :
quelle est la valeur du corpus ? Qu'avons-nous mesuré au juste ?
En d'autres termes, l'ensemble d'oeuvres que nous appelons littérature
est-il constitué de toutes les oeuvres publiées ou de celles
que nous lisons encore aujourd'hui ? La BDHL a été construite
sur la deuxième hypothèse. La BDHL n'a pas comme ambition
de devenir le catalogue de la Bibliothèque Nationale. Elle veut
être un reflet fidèle des points de vue sur la littérature,
et non - chose impossible - de la littérature en soi ; c'est
ainsi qu'elle peut être la base d'une histoire littéraire
dont l'objet ne serait plus l'écrivain ou le texte mais le lecteur,
ses représentations et ses pratiques. On a vu que les titres, leur
forme actuelle, leur sélection, ne sont pas un donné. Ils
sont construits par chaque époque, qui se reconstitue un passé
et un patrimoine à son image et suivant ses propres besoins. Ce
que nous avons mesuré et étudié, en réalité,
c'est la manière dont nous nous représentons aujourd'hui
la notion de titre, le résultat d'une construction. Il en va de
même pour toutes les catégories littéraires. C'est
dans la perspective de cette nécessaire gestion du patrimoine littéraire
qu'une banque de données peut jouer son rôle - pour comprendre
et pour agir.
|