Nouveautés
Appels à communication
Comités
JADT
Soumission
Articles
Thèmes
Archives
Carnet d'adresses
Index des auteurs
La page CORPORA
JADT (1998-2008) et GADT
La page des liens
Comptes-rendus d'ouvrages
La page Forum

Accueil Contact

Michel Bernard
Université de la Sorbonne-Nouvelle (Paris III)

A juste titre
Une approche lexicométrique de la titrologie

[Cet article a paru, en anglais, sous le titre " À juste titre : a lexicometric Approach to the Study of Titles ", Literary and Linguistic Computing, vol. 10, n°2, 1995, pp. 135-141].

Connaissez-vous la titrologie ? Cette discipline de l'histoire littéraire, si elle réduit son champ à l'étude des titres d'oeuvres, n'en connaît pas moins un succès indiscutable depuis près de trente ans. Leo H. Hoek pouvait déjà, en 1981, proposer une bibliographie de onze pages sur le sujet et mes propres investigations me laissent à penser que la titrologie s'est, depuis, enrichie d'un nombre de références presque équivalent. Mon propos ne sera donc pas d'innover, dans un domaine aussi fréquenté des études littéraires, mais simplement de montrer ici ce que peuvent apporter à la titrologie les outils informatiques.

Il existe déjà quelques études de ce type. Mais elles ne portent que sur des corpus limités dans le temps : les titres surréalistes, les romans publiés entre 1815 et 1832 ou à l'époque révolutionnaire. Du reste, tous les corpus étudiés par la titrologie sont, bien que souvent volumineux, toujours limités dans le temps et visent à une certaine forme d'exhaustivité. Je me propose ici d'étudier un corpus de 2020 titres représentant l'ensemble de la littérature de langue française, de La Cantilène de Sainte Eulalie (880) jusqu'à Fleur de ruines de Patrick Modiano (1991). Ce corpus est celui de la Banque de Données d'Histoire Littéraire (BDHL), élaborée par une équipe d'enseignants de l'Université de la Sorbonne Nouvelle - Paris III, sous la direction d'Henri Béhar. En dehors des titres d'oeuvres, cette banque stocke un grand nombre de données sur les auteurs, les éditeurs, les thèmes, les événements, les mouvements, les prix, tous ces faits qui constituent l'histoire littéraire. 

Ces 2020 titres ne constituent, on s'en doute, qu'une sélection assez restrictive. Comment s'est opéré le tri ? Nous n'avons recensé que les oeuvres les plus connues, c'est-à-dire, pratiquement, celles qui figurent dans les manuels et les programmes scolaires, dans les histoires littéraires, dans les encyclopédies, les dictionnaires, celles qui ont été primées, ou adaptées au cinéma, celles qui sont le plus souvent rééditées, qui font l'objet de publications populaires (livre de poche) ou au contraire savantes (éditions critiques). La liste ainsi obtenue n'est pas théoriquement satisfaisante, on le conçoit. C'est pourtant elle qui constitue notre panthéon littéraire actuel, l'image de la littérature française telle que nous la lisons, telle que nous la transmettons, telle que nous l'étudions aujourd'hui. Toutes les conclusions que nous pourrons tirer de l'analyse des titres de ce corpus devront donc être envisagées de ce point de vue, qui est celui de la réception. 

Voyons maintenant ce que nous apporte l'analyse informatique des titres. 2020 titres, c'est tout simplement, pour l'ordinateur, un texte de 2020 lignes, qui peut être analysé par les moyens désormais classiques de la lexicométrie. L'ordinateur ne reconnaît que des formes, c'est-à-dire, grossièrement, des suites de lettres séparées par des blancs ou des ponctuations. Histoire et Histoires, par exemple, sont deux formes différentes pour la machine. Il y a 2842 formes différentes dans nos titres, et elles représentent 7924 occurrences. C'est donc à un texte assez court que nous avons affaire. Disons, à titre de comparaison, que c'est l'équivalent de deux chapitres d'un roman. Mais les quantités sont néanmoins suffisantes pour que l'on puisse utiliser des méthodes statistiques, à condition de ne pas aller trop dans le détail.

L'index hiérarchique

Regardons d'abord l'index hiérarchique : les formes les plus fréquentes, comme dans n'importe quel texte, sont des mots-outils : de, la, le, les, l', et, du, des, d', sur, ou, un, en, à. Il faut, pour lire cette liste, la comparer avec celle que l'on trouve habituellement dans les corpus littéraires : de, la, et, le, à, l', les, il, un, d', que, des, en, une, je. On remarque en particulier que la conjonction ou pronom relatif que est peu fréquent dans les titres, dont la syntaxe ne connaît guère la phrase complexe. L'article indéfini (un, une) y est bien plus rare (il ne devient plus fréquent qu'au XXème siècle) : le titre pointe sur un secteur de la réalité qu'il délimite. Nous constatons également que le système d'énonciation du titre exclut la pronominalisation (il, je). Le titre étant la première phrase du texte, il ne peut se référer à un contexte. L'importance de la conjonction ou s'explique par la présence de sous-titres, spécialement aux XVIIème et XVIIIème siècles. L'ambiguïté de certains de ces mots-outils ne permet pas, à ce stade, de pousser plus loin l'analyse grammaticale des titres, celle dont Michel Butor évoque ainsi la possibilité : " On pourrait faire une étude méthodique des titres, parce que dans le titre il y a une micro-grammaire, et une micro-grammaire énormément grossie ". L'étude de cette " micro-grammaire ", dont on trouvera les éléments dans le travail de Léo H. Hoek, nous entraînerait trop loin ici parce qu'elle impliquerait un codage supplémentaire du corpus. Il me suffit d'avoir montré les commodités que l'informatique pourrait apporter à ce type de recherche. 

Venons-en à l'analyse sémantique des titres. Les premiers substantifs de l'index hiérarchique sont à ce propos les plus intéressants. On trouve, dans l'ordre, histoire, vie, mémoires, homme, roman, journal, voyage, poésies, lettres, contes, discours, poèmes, amour, oeuvres, France, Paris. Je n'ai gardé ici que les formes qui apparaissent au moins 15 fois. On constate qu'il s'agit en majorité de termes désignant le genre de l'oeuvre, appartenant à ce que Gérard Genette appelle des titres rhématiques, qui indiquent ce qu'est le livre, et non ce dont il parle. Appartiennent à des titres thématiques, au contraire, les formes vie, homme, amour, France, Paris. Comparons cette liste, comme précédemment, avec les substantifs les plus fréquents de la langue littéraire : homme, vie, femme, temps, jour, yeux, monde, fois, monsieur, coeur, tête, Dieu, chose, père, air, jours. Cette confrontation, si elle nous permet de relativiser les hautes fréquences de homme et de vie, fait sauter aux yeux les particularités de certains termes : outre les termes génériques, on relève amour, beaucoup plus fréquent dans les titres, et femme qui, à l'opposé, est assez peu utilisé (dans 4 titres seulement : L'Âne mort et la femme guillotinée (Janin), La Femme et le pantin (Louÿs), La Femme pauvre (Bloy), Journal d'une femme de chambre (Mirbeau). Les connotations assez péjoratives de ces titres suggèrent que ce mot, dans son opposition avec dame, pouvait paraître peu convenable pour désigner une héroïne féminine (on relève au contraire beaucoup de patronymes féminins dans les titres). Cependant, aucun des titres contemporains enregistrés par la BDHL ne vient confirmer cette hypothèse. 

Les spécificités

Mais le corpus des titres, que j'ai jusqu'ici considéré comme un tout, n'est pas homogène. Je vais maintenant utiliser un autre outil lexicométrique qui nous permettra de tenir compte des différences de genre et d'époque des oeuvres étudiées. Il s'agit du calcul des spécificités. C'est un outil statistique qui permet d'évaluer la fréquence d'une forme dans une partie du corpus, relativement à la taille de cette partie. Un exemple sera sans doute plus clair. La forme voyage apparaît 23 fois dans le corpus, dont 11 fois dans les titres du XIXème siècle. Or ceux-ci représentent 25 % du volume total. Par conséquent, on attendrait que la forme voyage ait 25 % de ses occurrences dans cette partie, soit à peu près 6. Les probabilités pour qu'on en trouve 11 étaient donc assez faibles et cet effectif constitue une spécificité positive. Elle est exprimée sous forme de probabilité (comprise en 0 et 1) : ici, 1.4E-02, soit 0,014. Cette valeur permet de comparer les spécificités entre elles. Le terme littérature, par exemple, a une spécificité au XIXème de 2.7E-02, soit 0,027. Sa fréquence dans cette sous-partie est donc deux fois plus probable, donc deux fois moins spécifique que celle de voyage. On peut à l'inverse trouver des spécificités négatives, quand une forme est sous-représentée dans une partie.

Munis de cet outil, voyons si certaines époques utilisent certains termes de manière préférentielle ou si, au contraire, elles les rejettent. Voici le tableau des spécificités par siècles (le Moyen Age a été globalisé) :
 


Moyen Age


 


Positives : roman, lyrique, de, poésie, jeu, rose, chanson, farce, princes, chansons, saint.

Négatives : -
 


XVIème


 


Positives : amours, langue, oeuvres, essais, psaumes, temple, discours, livre, chroniques.

Négatives : -
 


XVIIème


 


Positives : funèbre, oraison, prononcée, comique, oeuvres, partie, vers, église, princesse, épîtres, poème, poétique, satires, vérité, chrétiennes, dictionnaire, éloquence, des, ce.

Négatives : un.
 


XVIIIème


 


Positives : sur, M, ou, lettres, mémoires, lettre, nature, considérations, depuis, duc, éloge, encyclopédie, jusqu', plus, principes, Rousseau, à, histoire.

Négatives : -
 


XIXème


 


Positives : les, chansons, scènes, correspondance, Italie, chants.

Négatives : -
 


XXème 


 


Positives : pour, nuit, Dieu, guerre, Tintin, un, est.

Négatives : de, histoire, sur, lettres, M, et, oeuvres, France, amours, chansons, ou, française, vers.

L'analyse complète de ce tableau demanderait beaucoup plus de temps que ce qui m'est imparti et je me contenterai de quelques remarques. Attention d'abord aux trompe-l'oeil statistiques. Si certaines périodes ont plus de spécificités que d'autres, c'est aussi parce qu'elles représentent un plus grand nombre d'oeuvres dans la BDHL. Certaines oeuvres se présentent en série. Les sept oraisons funèbres de Bossuet, toutes prononcées en l'église de... pèsent lourd sur les spécificités du XVIIème siècle, de même que les six albums d'Hergé où figure le nom de Tintin. Mais les termes, ceux qui relèvent de la rhématique comme ceux qui relèvent de la thématique, montrent bien les préoccupations et les formes favorites de chaque époque : religieuses du Moyen Age au XVIIème siècle, puis au XXème, linguistiques au XVIème. On peut suivre sur ce point l'appréciation de Jean-Louis Flandrin : " Au niveau des titres, on retrouvera les notions qui s'affichent [...] les notions les plus valorisées de la civilisation ". Les mots-outils peuvent, par leurs spécificités, nous éclairer sur les formes que prennent les titres. Le de est fréquent au Moyen Age. Il ne s'agit pas cependant du de à la latine mais de compléments de détermination, par exemple dans les noms propres (Huon de Bordeaux, Raoul de Cambrai) ou dans l'attribution du texte à son héros éponyme (Le Roman de Renart, La Chanson de Roland). Le XVIIIème trahit, avec la spécificité de la préposition sur, son goût pour les traités, dissertations, discours et autres réflexions sur un sujet donné. Le XIXème siècle affectionne les titres commençant par les (Les Chimères, Les Cariatides, Les Châtiments,...). On voit apparaître au XXème siècle les titres-phrases comportant le verbe être : Il est minuit docteur Schweitzer, La Mort est mon métier, etc... On trouve aussi, à la même époque, l'usage, uniquement moderne, de la préposition pour : Bagatelles pour un massacre (Céline), Des Clientes pour la morgue (Dard), Du Mouron pour les petits oiseaux (Simonin), Pour Lucrèce (Giraudoux), Pour un nouveau roman (Robbe-Grillet), Trente chantefables pour les enfants sages (Desnos), Un Arc-en-ciel pour l'occident chrétien (Despestre), Une Tempête - Adaptation de La Tempête de Shakespeare pour un théâtre nègre (Césaire), Vol 714 pour Sydney (Hergé). Je cite intégralement ce mini-corpus pour montrer combien l'utilisation d'une concordance peut faciliter ce type d'étude. On perçoit bien à travers ces quelques exemples la profonde ambiguïté du titre littéraire, cette ambiguïté qui explique l'attrait des chercheurs pour la titrologie. Que désigne-t-il, en effet, cet énoncé liminaire qui ouvre (ou parfois interdit) toute lecture. Le titre est un énoncé elliptique, auquel on supplée comme on peut - comme on veut. Le pour suggère parfois la destination de l'oeuvre elle-même, son objectif (Pour un nouveau roman), son utilisation (Adaptation de La Tempête de Shakespeare pour un théâtre nègre), son public (Trente chantefables pour les enfants sages). Mais l'ambiguïté est souvent suffisamment profonde et riche pour que les difficultés qu'elle oppose au lecteur se muent en programme de lecture. Le recueil de poèmes de Depestre est-il un arc-en-ciel offert (ou jeté) à l'Occident, l'Occident le prendra-t-il pour tel ? Le "prélude" qui ouvre le livre ne lève pas la difficulté : 

"Oui je suis un nègre-tempête

Un nègre-racine-d'arc-en-ciel"

L'arc-en-ciel, fils de la tempête mais gage de réconciliation, invite lui aussi à bien des hypothèses interprétatives. On retrouve là le titre qui "embrouille les idées", que Umberto Eco appelle de ses voeux. Le Pour Lucrèce giralducien est encore plus complexe. On peut donner, même après avoir lu la pièce, toutes les significations à cette préposition : la pièce est un plaidoyer pour la vertu, incarnée par Lucile/Lucrèce, ou elle est offerte à Lucrèce, ou tout ce qui s'y déroule est fait pour Lucrèce, objet de tous les désirs, ou Lucile se prend pour Lucrèce. Mais le titre peut aussi être synonyme de "en ce qui concerne Lucrèce", "à la place de Lucrèce", "au nom de Lucrèce",... Sans doute le modèle romain doit-il aussi nous faire penser à la tournure des titres de Cicéron (Pro Murena, Pro Milone,...). L'ambiguïté fondamentale de tout titre, c'est que l'on ne sait s'il parle du livre ou de ce qu'il raconte, du signifié ou du signifiant.

Une autre périodisation

On aurait pu également opérer d'autres découpages chronologiques, suivant les traditionnelles mais tout aussi arbitraires périodisations qui fleurissent dans nos histoires littéraires. Je me permettrai même d'en proposer une nouvelle, qui tient compte d'un facteur qui n'a jamais été utilisé jusqu'à maintenant : le nombre d'oeuvres produites. Si l'on découpe par exemple l'histoire de la littérature française en douze périodes dont chacune a produit un douzième des oeuvres recensées par la BDHL, on obtient le tableau suivant (je n'indique plus que les spécificités positives) :

880-1593 : de, roman, lyrique, jeu, poésie, amours, livre, chroniques, oeuvres, honneur, poétiques.

1594-1673 : comique, partie, oeuvres, vers, satires, mort, chrétiennes, éloquence, histoire, nouvelles, poème, poésies. 

1674-1768 : sur, dictionnaire, lettres, histoire, funèbre, oraison, lettre, encyclopédie, vérité, mémoires, prononcée, église, philosophe, de, à, réflexions.

1769-1830 : ou, nature, sur, société, et, ses, par, philosophique, théorie, dans, considérée, état, génie, religieux, tableau, religion, pouvoir, social, siècle.

1831-1863 : mystères, un, chants, voyage.

1864-1889 : chansons.

1890-1910 : époque, amoureuse, chambre, femme, histoires, route, le.

1911-1926 : feu, chez, à.

1927-1939 : journal, Tintin, fille, sang, actes, pays, pièce, comédie, II.

1940-1951 : -

1952-1963 : anthologie, écrits, volume, pour.

1964-1991 : - 

Voici un tableau qui ne peut manquer de susciter des questions. Passons sur le découpage chronologique. On avouera simplement qu'il en vaut bien d'autre et que la mort de Molière, la naissance de Napoléon, la bataille d'Hernani ou la fin de la guerre d'Algérie constituent des bornes qui, pour être aléatoires, n'en sont pas moins fort acceptables. Le plus surprenant, c'est que le nombre de termes spécifiques va de 0 à 19. Le phénomène était beaucoup moins sensible avec la première périodisation parce que chaque siècle représentait des effectifs d'oeuvres très différents. Qu'est-ce à dire ? Une période à laquelle ne correspond aucune forme spécifique est une période dont les titres utilisent le vocabulaire moyen de l'ensemble des titres de la littérature française. Le phénomène s'accroît en s'approchant de notre époque. On ne peut émettre que deux hypothèses pour expliquer ce fait statistique : soit les titres du XXème siècle utilisent volontairement le vocabulaire qui a déjà été attesté dans d'autres époques, soit nous n'avons gardé que les titres qui correspondent à nos usages modernes, oubliant ou refaisant ceux qui n'entraient pas dans le moule.

N'oublions pas en effet à ce stade que la plupart des titres antérieurs au XIXème ont été refaits. Certains sont même des créations pures et simples : les textes médiévaux ne portaient pas de titres (l'usage de la page de titre ne date que des années 1475-1480) et jamais Raimbaud d'Orange n'a écrit des Oeuvres poétiques. Pour prendre des exemples plus récents, Le Philosophe sans le savoir de Sedaine a été publié sous le titre Le Duel, la Nouvelle Héloïse était primitivement intitulée Lettres de deux amants habitants d'une petite ville au pied des Alpes. La BDHL recense les titres originaux mais je n'ai tenu compte dans cette étude que des titres usuels.

Longueur des titres

Un autre phénomène, plus aisément explicable, apparaît grâce à ce découpage. Bien que le nombre d'oeuvres soit sensiblement le même pour chaque période, le nombre de formes effectivement décomptées est très variable. Voici un graphique donnant le nombre moyen de formes par titre pour chaque période :

Les titres des XIXème et XXème siècles sont nettement plus courts que ceux des XVIIème et XVIIIème. Ce qui a été dit plus haut sur la réfection des titres antérieurs au XVIIème laisse penser qu'ils ont été mis aux normes modernes : les oeuvres de la période 880-1673 ont en effet la même longueur que les titres plus récents. Les titres usuels des romans de Rabelais, par exemple, Gargantua et Pantagruel, sont des abréviations modernes des titres authentiques : La vie très horrificque du grand Gargantua, père de Pantagruel - Jadis composée par M. Alcofribas, abstracteur de quinte essence - Livre plein de pantagruélisme et Pantagruel, roy des Dipsodes, restitué en son naturel avec ses faictz et prouesses espoventables, composéz par feu M. Alcofribas, abstracteur de quinte essence. Ces titres de la Renaissance, qui, selon nos canons modernes, tiennent lieu de titre, de sous-titre, de signature et de quatrième page de couverture ont été systématiquement abrégés. Nous avons été plus respectueux de ceux de l'âge classique parce qu'ils sont de véritables titres, bien que très analytiques (Considérations sur les causes de la grandeur des Romains et de leur décadence), ou parce qu'ils sont soigneusement structurés en titre et sous-titre (La Vie de Marianne ou les aventures de Madame la comtesse de ***), ce qui légitime l'utilisation du seul titre.

Oeuvres homonymes

On arrive à la même constatation si l'on recherche systématiquement les oeuvres homonymes. Elles se divisent nettement en deux catégories : les reprises volontaires de titres, dans un but parodique ou pour se situer dans une tradition, et les homonymies provenant de l'attribution d'un titre générique à certaines oeuvres anciennes, réunies ou rebaptisées par les éditeurs modernes. On peut classer dans la première série les reprises de thèmes anciens : les Antigone de Garnier (1579) et d'Anouilh (1947), La Psyché de Molière (1671) et celle de Pierre Louÿs (1927), L'Ecole des femmes de Molière (1663) et celle de Gide (1929) ; les thèmes à la mode qui ont suscité, à une même époque, l'émulation des écrivains : Les 150 psaumes de David de Marot (1560) et de Desportes (1603), Coelina ou l'enfant du mystère, dans les versions de Pixérécourt (1800) et de Ducray-Duminil (1803), qui, quelques années plus tôt, avaient déjà donné tous deux un Victor ou l'enfant de la forêt, respectivement en 1797 et 1798, De L'Amour de Senancour (1806) et de Stendhal (1822), Les Satires de Regnier (1608) et celles de Boileau (1666), la Marianne de Hardy (1625) et celle de Tristan l'Hermite (1637), le Voyage en Italie de Stendhal (1813) et celui de Taine (1866), la Jeanne d'Arc de Péguy (1897) et celle de Delteil (1925). En revanche, certaines homonymies ne sont dues qu'au peu d'imagination des éditeurs modernes : les Mystère de la Passion de Michel (1490) et de Gréban (1537) ne portaient évidemment pas ce titre à l'origine, les Mémoires de Commynes (1489), La Rochefoucauld (1662), Bussy-Rabutin (1696), Retz (1717) et Bernis (1778) ont reçu un titre commun mais peu explicite (la première édition de Commynes, en 1524, s'intitulait Chronique et hystoire faicte et composée par feu messire Philippe de Commines, la première édition intégrale du cardinal de Retz portait Mémoires du cardinal de Retz contenant ce qui s'est passé de plus remarquable en France pendant les premières années du règne de Louis XIV), il en est de même pour la série des Oeuvres (Marot, Labé, Brantôme), Oeuvres poétiques (Raimbaud d'Orange, Jodelle, Viau, Dorat), Poésie lyrique (Jaufré Rudel, Marcabru, Conon de Béthune, Thibaud de Champagne). Ce sont, on le voit, les auteurs du Moyen Age et de la Renaissance qui ont été le plus mal traités, dans la mesure où ils n'avaient pas pris eux-mêmes la précaution d'apposer sur leurs oeuvres cette étiquette que nous jugeons si importante.

Spécificités génériques

Nous avons vu jusqu'à maintenant les résultats d'une segmentation chronologique du corpus, mais il est également possible de vérifier si d'autres spécificités ne peuvent pas apparaître suivant des axes différents. Le plus productif est celui des genres. La BDHL, en effet, classe les oeuvres suivant trois niveaux de genre, de plus en plus précis et combinables entre eux. Le premier niveau est formel (Vers, Prose), le second est une typologie générale (Fiction, Idées, Discours intime, Poésie, Théâtre) et le troisième, le plus détaillé, reprend la terminologie habituelle (Tragédie, Nouvelle, Récit de voyage, etc...). C'est sur le second niveau que j'ai opéré une partition du corpus, pour vérifier si ces catégories génériques correspondaient à un vocabulaire des titres particulier. Voici le tableau des spécificités positives les plus fortes :

Fiction : contes, roman, aventures, le, mer, Tintin, comte, noir, époque, une, ou.

Idées : sur, française, discours, histoire, art, essai, des, réflexions, langue, traité, littérature, nature, épîtres, société, religion, ses, dictionnaire, éloquence, poétique, politique, social, théorie, universelle, volume, ce, critique, recherche, l', de.

Poésie : poèmes, poésies, odes, chansons, poésie, chants, poétiques, complètes, lyrique, amours, les, ode, psaumes, Pucelle, solitude, stances, oeuvres, et. 

Théâtre : actes, école, pièce, deux, jeu, mystère, imaginaire, moeurs, farce, Lucrèce, proverbes, roi, théâtre. 

Discours intime : journal, mémoires, souvenirs, tome, voyage, correspondance, guerre, d', lettres, II, M, Italie, confessions, duc, éloge, petite, Rousseau, si. 

Les termes génériques qui figurent dans ces listes me dispensent de préciser davantage ce que recouvrent les différentes catégories. Il est plus intéressant de considérer les termes thématiques. Ne pouvant évidemment pas viser à l'exhaustivité, je me contenterai d'un seul exemple, celui de la forme noir dans les oeuvres de fiction. La spécificité, de 5.9E-03, correspond à une fréquence de 8 sur 10. Voici les 8 titres d'oeuvres de fiction qui la contiennent :

· Le Rouge et le Noir (Stendhal, 1831)

· Le Sang noir (Guilloux, 1935)

· Le Musée noir (Pieyre de Mandiargues, 1946)

· L'Enfant noir (Camara Laye, 1953)

· Le Pagne noir (Dadie, 1955)

· Kocoumbo l'étudiant noir (Ake Loba, 1960)

· L'Oeuvre au noir (Yourcenar, 1968)

· Le Charme noir (Queffelec, 1985)
 
 

Et les deux titres qui ne correspondent pas à des oeuvres de fiction : · L'Homme noir (Xavier Forneret, 1835) : Théâtre

· Le Miroir noir (Gilbert-Lecomte, 1937) : Poésie

Les connotations du terme noir, dans ces titres, sont bien sûr très différentes. Sa spécificité pour la fiction me semble due essentiellement aux titres de romans africains (Camara Laye, Dadie, Ake Loba). Ajoutons que la première nouvelle de Le Musée noir présente un personnage de noir, Petrus. Ailleurs, le sens est plutôt péjoratif, le noir étant, étymologiquement, l'atroce. Ce genre de mot joue pleinement le rôle publicitaire dévolu au titre. Même chez Stendhal, le mot noir, même s'il peut représenter la prêtrise opposée à l'état militaire, ne peut manquer d'évoquer chez le lecteur de 1831, féru de "roman noir", une atmosphère que l'on retrouve d'ailleurs dans la scène où Mathilde prend la tête coupée de Julien sur ses genoux.

On peut également étudier les spécificités en considérant le dernier niveau de genre. La BDHL en distingue 34, ce qui serait trop lourd à manier dans le cadre de cet aperçu. Je propose de ne considérer que quelques genres théâtraux : la comédie, le drame, la farce, l'opéra, la tragédie et un genre indéfini (baptisé théâtre), regroupant les oeuvres qui n'entrent dans aucune des catégories traditionnelles. Voici la statistique complète de ce découpage :
 

Genre
Nombre d'oeuvres
Nombre de formes
Nombre de formes moyen
Spécificités positives
Comédie
123
417
3,4
amour, école, femmes, moeurs
Drame
84
283
3,4
-
Farce
12
46
3,8
farce, du
Opéra
6
28
4,6
M., en
Théâtre
34
132
3,9
une
Tragédie
71
141
2
Marianne, en, Lucrèce
TOTAUX
330
1047
3,2

Les faibles effectifs représentés par ce corpus expliquent la rareté des spécificités. Il n'en reste pas moins que ces genres, obéissant pourtant à des règles bien différentes, ne se différencient guère par leurs titres. On repère plutôt dans la liste ci-dessus des paradigmes à succès dans chaque genre : L'Ecole (des femmes, des maris, des amis, des vieillards, des moeurs), La Farce (de Maître Pathelin, du ténébreux, du pont-aux-ânes), les pièces ...en x actes ; des patronymes souvent utilisés : Marianne chez Tristan l'Hermite, Hardy, Marivaux et Musset, Lucrèce chez Ponsard, Hugo et Giraudoux.

Mouvements littéraires

On n'oubliera pas en analysant ces phénomènes de spécificité que les particularités liées au genre et à l'époque peuvent interférer. Comme la poésie est le genre dominant au Moyen Age, par exemple, il est normal que les spécificités du genre et de l'époque soient parfois les mêmes : poésie, chansons, lyrique. Mais la comparaison entre les deux est parfois suggestive. La première place de la fiction au XXème siècle, par exemple, ne se traduit pas par une identité des spécificités entre les deux découpages. Pour cette raison, une partition tenant compte des mouvements auxquels appartenaient les auteurs des oeuvres est très redondante avec celle qui suit la chronologie :

Poètes libertins : Louis, histoire, états, règne, solitude, XIV, poème.

Baroque : comique, Etats, solitude, partie.

Classicisme : funèbre, oraison, prononcée, église, épîtres, nouvelles, de, école, épître, poétique, vers, femmes, France, reine.

Groupe de l'Encyclopédie : depuis, Encyclopédie, jusqu', Rousseau, sur, histoire, empire, ou, M., des, lettres, Louis, lettre, qui, confessions, philosophique, plus, sous.

Romantisme : ses, Italie, religion, voyage, un et.

Naturalisme : une, époque, journal, Madame.

Parnassiens : poèmes, poésie, jamais.

Symbolisme : vers.

Décadentisme : chanson, moderne, roi. 

Dadaïsme : anthologie, écrits, volume, art, manifeste, mourir, sublime, surréalisme, poèmes, amour.

Surréalisme : anthologie, au, écrits, poésie, corps, jeu, liberté, style, volume.

Nouveau Roman : l'. 

Il faudrait également préciser que certaines partitions ne donnent aucune spécificité. Mais cette nullité des résultats est parfois tout aussi significative. Par exemple, les titres des écrivains nés à Paris ne présente aucune particularité notable par rapport à ceux qui sont nés en province ou à l'étranger. C'est là une preuve supplémentaire, pour l'analyser rapidement, du grand mouvement d'unification nationale culturelle et linguistique dont la littérature française a été un des champs d'action privilégiés.

Je n'ai pas testé, loin de là, toutes les partitions possibles pour évaluer les spécificités qui en auraient découlé. En particulier, j'ai laissé de côté tout ce qui concernait la thématique des oeuvres, les différences de titres entre les oeuvres originales et leurs adaptations, les particularités des différents éditeurs, des prix littéraires, les formats des éditions originales. La BDHL permettrait sans doute de faire des constatations intéressantes dans ces domaines mais ces investigations auraient dépassé la dimension modeste que doit garder cet exposé. Par ailleurs, les corrélations entre ces différents facteurs nous auraient sans doute donné des résultats assez redondants par rapport à ce que nous avons déjà constaté. 

Mon objectif, je le rappelle était de montrer que toute étude de titrologie devrait désormais, surtout si elle porte sur un corpus assez large, s'appuyer sur les outils informatiques. Ceux que j'ai utilisés ne sont d'ailleurs pas les seuls : la technique des segments répétés ou celle des co-occurrences auraient tout aussi bien pu être mises en oeuvre sur notre corpus. Il serait également possible de comparer le vocabulaire des oeuvres avec le vocabulaire de leurs titres. La banque FRANTEXT pourrait être mise à contribution pour ce travail.

Mais la question centrale de toute entreprise lexicométrique est celle que j'annonçais au début de cet exposé : quelle est la valeur du corpus ? Qu'avons-nous mesuré au juste ? En d'autres termes, l'ensemble d'oeuvres que nous appelons littérature est-il constitué de toutes les oeuvres publiées ou de celles que nous lisons encore aujourd'hui ? La BDHL a été construite sur la deuxième hypothèse. La BDHL n'a pas comme ambition de devenir le catalogue de la Bibliothèque Nationale. Elle veut être un reflet fidèle des points de vue sur la littérature, et non - chose impossible - de la littérature en soi ; c'est ainsi qu'elle peut être la base d'une histoire littéraire dont l'objet ne serait plus l'écrivain ou le texte mais le lecteur, ses représentations et ses pratiques. On a vu que les titres, leur forme actuelle, leur sélection, ne sont pas un donné. Ils sont construits par chaque époque, qui se reconstitue un passé et un patrimoine à son image et suivant ses propres besoins. Ce que nous avons mesuré et étudié, en réalité, c'est la manière dont nous nous représentons aujourd'hui la notion de titre, le résultat d'une construction. Il en va de même pour toutes les catégories littéraires. C'est dans la perspective de cette nécessaire gestion du patrimoine littéraire qu'une banque de données peut jouer son rôle - pour comprendre et pour agir.


LEXICOMETRICA (ISSN 1773-0570)
Coordinateurs de la rédaction : André Salem, Serge Fleury
Contacts:  lexicometrica@univ-paris3.fr
ILPGA, 19 rue des Bernardins, 75005 Paris France



Site Meter