Sommaire des JADT 1998   

DERNIÈRES RÉFLEXIONS SUR LA STATISTIQUE TEXTUELLE

 

Roberto Busa

CAEL - Aloisianum

Via Gonzaga, 8 I-21013 Gallarate

 

Je parlerai peu et je ne dirai rien de neuf.

1.1. A côté des grands courants du traitement électronique de textes - les banques de données, l'enseignement assisté par ordinateur, l'édition, qui comprend les multimedia - il faut distinguer la microanalyse herméneutique computérisée, que j'ai commencée il y a plus de 50 ans. J'en ai eu l'idée en effet dans les années 1941-1945, pendant la guerre, en faisant ma thèse de doctorat sur "la terminologie thomiste de l'intériorité", thèse que j'ai soutenue en 1946 et publiée en 1949, et cette année-là, j'ai commencé à "bricoler" à New-York avec les machines IBM.

1.2. J'ai mis en pratique ce que j'ai toujours recommandé par la suite : au lieu d'édifier un kilomètre d'algorythmes sur une base d'un centimètre, c'est sur toute la base, c'est-à-dire sur chacun des mots du texte, que j'ai ajouté un premier centimètre de codes typologiques, puis sur tout le texte un centimètre d'autres codes, puis un troisième et un quatrième centimètre, toujours sur tout le texte et ainsi de suite.

Mes textes étaient : les 9 millions de mots latins de l'Opera Omnia de Saint Thomas d'Aquin, puis les 2 millions de mots des autres auteurs médiévaux, qui ont un lien avec les écrits de St Thomas, enfin plus de 11 millions de mots appartenant à 18 langues, 8 alphabets, de genres littéraires très différents, et que j'avais choisis pour mettre à l'épreuve la méthode que je mettais en œuvre.

A chacun des mots de tous ces textes, j'ai adjoint sa position et le nombre de ses caractères ; puis la spécification de 6 typologies du discours ; puis le lemme auquel il appartient ; puis plusieurs caractéristiques morphologiques et homographiques.

1.3. C'est ainsi qu'en 1980 j'ai pu achever la photocomposition et publier les 56 volumes de l'Index Thomisticus, de format encyclopédique et comportant 1.200 pages : 10 volumes contiennent 60 tables quantitatives différentes qui décrivent le système lexical, 7 volumes sont consacrés à la réédition des textes et 39 aux concordances de deux types : l'une avec des contextes de 3 lignes pour les noms communs, l'autre avec des trinomes alphabétisés. Ce deuxième type, que j'ai appelé Concordantia Altera, documente tous les mots grammaticaux.

Par exemple les 250.863 + 42714 "est", les 295.593 + 84577 "et", et les 189.544 + 25779 "non". La Concordantia Prima et la Concordantia Altera sont par ailleurs distinctes dans les œuvres de St Thomas et dans celles des autres auteurs.

La première édition du CD-Rom de l'Aquinate avec ses hypertextes internes et externes parut en 1992, elle fut suivie d'une seconde en 1996 et d'une réimpression en 1997.

1.4. Si la technologie du CD-Rom avait existé en 1974, il est évident que je n'aurais pas publié les 39 volumes des Concordances, même si, maintenant qu'ils existent, la consultation des mots de basse fréquence s'avère plus rapide dans les volumes que par le CD-Rom.

1.5. J'ai ensuite continué à approfondir en édifiant mes centimètres de codes sur tout le kilomètre des 11 millions de mots latins, j'ai ajouté au texte électronique 4 classifications ultérieures. Les conclusions de la première, de la deuxième et de la quatrième classification ont été publiées en latin et en anglais, sous le titre Inquisitiones Lexicologicae In Indicem Thomisticum (Gallarate, Cael 1994 p.218) ; la troisième classification est en cours de publication.

On opéra la première classification sur les signes seulement : on segmenta, en équipe, les 11 millions de mots latins en séquences de caractères, identiques et répétées dans des combinaisons avec d'autres séquences différentes. Je fus étonné du résultat : moins de 1.500 séquences.

Dans la seconde, nous avons classifié et recensé les terminaisons et les désinences de la langue latine en général (où 859 terminaisons de graphie différente représentent 3924 désinences sémantiques), ainsi que les désinences présentes et absentes dans les textes de l'Index Thomisticus.

La troisième est à peine terminée. En m'appuyant sur des étymologistes latins qualifiés, j'ai regroupé les 20.000 lemmes de l'Index Thomisticus en familles thématiques : elles ne sont que 2.600 environ, dont 195 se composent d'un seul lemme et 254 ne sont présentes que dans les autres auteurs.

La quatrième enfin est la classification que je considère d'un point de vue conceptuel comme la plus remarquable et celle qui justifie ma présence aujourd'hui parmi vous. Après l'exposé récapitulatif que j'ai édité dans le volume cité, ce n'est que dans l'été 1997 que j'en ai publié la liste détaillée, et pour le moment seulement à titre privé pour usage interne à notre association Cael. C'est la codification de tous les lemmes précités selon les "types de sémanticité".

1.6. J'appelle types de sémanticité les différents rapports entre signifiant et signifié, qui dépendent tous du type de signifié. Avec cette typologie j'ai voulu affirmer et documenter l'hétérogénéité des mots, qui, selon moi, existe dans toutes les langues, bien qu'exprimée différemment.

En voici le schéma en chiffres arrondis, et que je pourrais illustrer sur demande.

Des 11 millions de mots latins :

- 45 % sont des mots communs qui précisent les "aspects" des objets ou des choses, c'est-à-dire leurs dimensions, leurs qualités, leurs activités, leurs passivités.

- 32 % sont des mots qui expriment des relations ou des corrélations entre des choses.

- 11 % sont ou des noms propres qui indiquent des réalités individuelles, c'est-à-dire uniques, ou des noms communs qui indiquent des "objets" ou des "choses" comme des ensembles.

-10 % sont des mots vicariants, surtout des pronoms, qui renvoient à des mots ou à des notions ou à des choses.

-1% sont des mots déictiques explicites, qui expriment des connaissances de présences et non des concepts.

-1% sont des mots qui expriment des réalités invisibles.

1.7. Selon l'optique de la fonction discursive, dans chaque lexique on distingue en outre deux zones ou groupes de mots : l'un comprend les mots-véhicules, ceux "avec lesquels" on s'exprime ; l'autre les mots-messages, ceux qui précisent "ce que" l'on veut communiquer.

Ces derniers changent selon l'argument, au contraire des premiers. Les uns expriment les contenus du discours, les autres la logique. Les premiers sont nombreux et en continuelle augmentation, il n'en est pas de même pour les autres, qui sont en petit nombre, et dont les variations dans l'histoire semblent en effet se produire à un rythme différent et peut-être aussi pour des raisons différentes.

1.8. Il me semble que j'ai repéré ainsi la nature et la fonction des "mots" appelés "grammaticaux" (ou "function words", mais j'ai toujours jugé regrettable de les appeler "mots vides" ... ) : les mots grammaticaux sont en effet ceux qui expriment la logique.

Dans le discours la logique est présente également comme morphologie et comme syntaxe. Et dans le lexique elle s'exprime non seulement par les particules, mais aussi par certains verbes auxiliaires et semi-auxiliaires, et certains noms "ontologiques", c'est-à-dire très universels, comme, par exemple, un et plusieurs, le tout et la partie, interne et externe, faire et être fait.

1.9. Je prévoyais dans mon programme, après avoir achevé ce que j'ai dit précédemment, d'affronter la micro-analyse intégrale et inductive des syntaxes, en commençant par chacun de leurs mots, un par un, en partant des prépositions et des conjonctions, et en continuant avec la morphologie syntactique des flexions nominales et verbales.

Mais je suis arrivé à ce point de ma recherche au moment où, n'ayant plus que peu de temps devant moi, je suis contraint d'amener les voiles. Et je dois avouer que ce n'est pas pour me déplaire.

2.1. Les 5-7 juin 1981 j'ai organisé à l'Aloisianum de Gallarate un séminaire intitulé "Global Linguistic Statistical Methods to Locate Style Identities". Les Actes ont élé publiés dans le Lexique Intellectuel Européen par les Éditions Ateneo de Rome en 1982 en un volume de 111 pages. Les professeurs É. Brunet et Ch. Muller y ont participé activement.

Le titre du séminaire définissait la statistique linguistique par une de ses finalités : repérer dans un texte les "empreintes digitales" de son auteur, c'est-à-dire les caractéristiques d'un texte qui permettraient d'en reconnaître la paternité.

Bien évidemment ce n'est pas le seul but de la statistique linguistique. Et entre autres ce n'est pas l'objectif le moins ardu que de repérer les traces dans les écrits d'un auteur qui permettraient d'apporter le preuve de leur chronologie.

2.2 J'ai affirmé à cette époque

1° que traiter les mots d'un texte seulement comme s'ils étaient homogènes et indifférenciés, comme des nombres à l'intérieur d'un même calcul, rend certainement quelques services utiles à la philologie et surtout aux banques de données ; mais que cela me semble la raison pour laquelle la statistique linguistique est encore très éloignée des buts évoqués ;

2° que la statistique linguistique devrait tenir compte de l'hétérogénéité des mots (ou tout au moins et tout particulièrement de la distinction entre les deux zones lexicales, celle de la logique et celle, très spécifique, du message), ainsi que de la succession des types de structures syntaxiques ;

3° et qu'une stratégie de ce type devrait commencer par des statistiques particulières sur, au moins, chacun des principaux éléments qui constituent un texte, pour les refondre ensuite dans une formule statistique globale.

3.1. Après des années je constate que ces remarques se sont confirmées. La première me semble une donnée évidente. Quant à la deuxième et à la troisième, n'en ayant pas fait l'expérience personnellement, je ne peux les présenter que comme hypothèses de travail.

3.2. Je me suis demandé si c'étaient des utopies. Ma réponse est qu'à coup sûr c'est une utopie de penser que, au stade actuel, ce type de statistiques devienne pratique courante dans les universités.

3.3. Mais que ce soit utopique d'espérer que dans le monde académique un petit nombre de chercheurs ou d'instituts veuillent s'embarquer dans la longue et pénible tâche qui consiste à insérer dans un texte toutes les codifications de ses structures significatives, pour en extraire une statistique globale qui soit pour ainsi dire le modèle mathématique du style de l'auteur, je ne veux pas être celui qui l'affirmera ou le niera.

La réponse vous appartient et plus particulièrement aux plus jeunes d'entre vous.

 Sommaire des JADT 1998