BELRHALI

Sommaire des JADT 1998

DICTIONNAIRE LEXICO-PHONÉTIQUE DU FRANÇAIS PARLÉ : BDPHO

ÉTUDE PRÉLIMINAIRE DES VARIANTES PHONÉTIQUES

Rabia Belrhali

Institut de la Communication Parlée, ESA CNRS 5009

Université Stendhal/INPG, Domaine Universitaire

38040 Grenoble Cedex

Email : belrhali@icp.inpg.fr

Abstract

The aim of this article is the study of phonetic variations. Our material is a data base made up of 3 corpus of spoken French. This data base contains informations of various linguistic levels : lexical, phonetic, morphological and syntactic. To each orthographic form are associated the total number of occurences, the variation(s), as well as the corresponding cohorts, the total number of their occurences, and an indexation of each occurence in the three corpus.

Introduction

Pour le français parlé il n'existe pas de ressources disponibles correspondant à un vaste corpus associant des enregistrements multilocuteur, leur transcription phonétique réalisée par des spécialistes de phonétique, l'étiquetage fin du signal, la restitution orthographique du corpus, les dictionnaires de formes et de lemmes orthographiques et phonétiques dérivés. Dans l’inventaire de Desrochers et al. (1990) ou le récent catalogue (version 1.4, décembre 96) d’ELRA (European Language Resources Association) figurent seulement des enregistrements de textes lus (littérature, articles de journaux) dont la correspondance phonétique est délivrée par phonétisation automatique normative, ce qui en limite considérablement l'exploitation phonétique.

Depuis près de vingt ans des collaborations entre le Département Signal de l’ENST et l’Équipe Structure du code de l’ICP, puis avec l’Équipe TRILAN ont permis de rassembler, organiser et traiter un des plus vastes corpus de près de 30 heures de français parlé. Les ressources ainsi accumulées couvrent les niveaux audio, phonétique, orthographique et sont structurées sous forme de fichiers sons, de leurs représentations phonétique et orthographique, de lexiques de formes et de lemmes correspondant.

La restitution de la forme orthographique a permis de créer BDPHO sur la base de 7 993 formes orthographiques, dont 951 variantes. Elle comporte six champs : l’entrée orthographique, le nombre total d’occurrences, la (ou les) forme(s) phonétique(s), la cohorte correspondante, le nombre d’occurrences et une indexation permettant la localisation des 10 premières occurrences dans le corpus.

Un dictionnaire " De À à Zut " (Boë L.-J. et al., 1992) a été constitué à partir des transcriptions phonétiques réalisées par des experts. Cette méthode nous fournit des informations beaucoup plus précises et plus riches sur la langue parlée que les textes phonétiques obtenus par phonétisation automatique. Ce corpus met à notre disposition tous les outils nécessaires à l'étude des variantes phonétiques. La présentation détaillée de notre corpus constituera la première partie de cet article, puis dans un second temps nous définirons et proposerons une classification des différents types de variantes rencontrées dans BDPHO.

Cette étude des variantes phonétiques vient compléter les nombreux travaux réalisés à partir de BDPHO : la rédaction d'un dictionnaire lexico-phonétique du français parlé (Boë L.-J. et al. (1992)), l'étude des liaisons (Salmon-Alt S. (1996), Ahmad M. (1993)), l'étude des catégories (Belrhali R. et al. (1997)), la lemmatisation (Dujardin D. et al. (1994)).

1. Présentation du corpus BDPHO

1.1. Les corpus orthographiques et phonétiques

Les corpus ont été rassemblés par l’Institut de la Communication Parlée (ICP) de Grenoble et le département Signal de l’École Nationale Supérieure des Télécommunications de Paris (Boë & Tubach, 1992). Ils correspondent à des enregistrements de conversations et d’émissions de radio de plus de 70 locuteurs pour une durée effective de 30 heures, soit environ 300 000 sons. Ce sont des spécialistes de phonétique qui ont assuré la transcription phonétique à partir de l’écoute d’enregistrements et sa restitution orthographique (Tseva et al., 1988). Cette méthode – très coûteuse en temps – fournit évidemment une information beaucoup plus précise et plus riche sur la langue parlée que des transcriptions phonétiques obtenues par application de programme de phonétisation automatique. Les notations phonétiques sont présentées en caractères API et non pas sous forme de transcodage spécifique comme c'est souvent le cas pour ce type de ressources. Figurent aussi les accents de mots, les pauses silencieuses et les hésitations.

m Le corpus n° 1 comporte 86.360 sons et a été constitué à l’Institut de Phonétique de Grenoble sous la direction de R. Gsell (une description des corpus beaucoup plus fine se trouve dans Boë et al. 1992).

m Le corpus n° 2 comporte 201.281 sons et a été constitué à l’Université de Californie par A. Malécot en 1967-68. Il s’agit d’un corpus relativement homogène du point de vue socioculturel. Il s’agissait effectivement de rassembler un corpus de l’" intelligentsia parisienne ".

m Le corpus n° 3 de 17.111 sons a été constitué à l’Institut de la Communication Parlée par J. Van Eibergen (1985).

Tous ces corpus se présentent sous la forme d’un fichier dont les lignes orthographiques sont numérotées, chacune d’entre elle étant associée à la notation phonétique.

10 quand on a des enfants / on se rend compte à quel point c'est difficile de les /

kA$-t O$-n a de-z A$fA$ // O$ s´ RA$ kO$t a kEl pwE$ s e difisil d´ le //

11 faire / aller d'un côté / ou de l'autre / si ce ne sont pas leurs idées / ah oui je

fER // ale d _$ kOte // u d´ l otR // si s´ n´ sO$ pa l_R-z ide // a wi J´

1.2. Les dictionnaires dérivés

Il s'agit de ressources linguistiques dérivées du corpus, ce qui leur donne une forte valeur ajoutée.

m Dictionnaire des formes

Au total, l’ensemble du corpus comporte 102.137 occurrences lexicales, soit 7.993 formes orthographiques différentes et 951 variantes. Ont été filtrés tous les noms de personne et éliminés les sigles peu usités ou trop spécifiques. Par contre ont été conservés tous les prénoms et les noms de lieux géographiques. Sans prétendre couvrir le même volume lexical, un tel matériau, constitué à partir du français parlé, se présente d’abord comme un complément des indispensables traités (Fouché, 1969) et dictionnaires de prononciation (Martinet & Walter, 1973 ; Lerond, 1980 ; Warnant, 1988), des dictionnaires de langue (Le Petit Robert), qui proposent une forme de prononciation de référence.

Le dictionnaire des formes contient en entrée la forme orthographique, le nombre d'occurrences, la ou les formes phonétiques (variantes) et la représentation sous forme de cohorte (V, CV VCV…). Le dictionnaire est aussi disponible avec l’entrée phonétique.

Formes orthographiques Transcriptions phonétiques Occurrences Cohortes

à 1375

a 1375 V

à cause de 5

a koz d´ 5 V CVC CV

à cause des 1

a koz de 1 V CVC CV

à cause du 1

a koz dy 1 V CVC CV

à ce moment-là 37

a s momA$ la 3 V C CVCV CV

a s mOmA$ la 2 V C CVCV CV

a s´ mOmA$ la 32 V CV CVCV CV

Exemples d'hésitations :

Contexte indexé :

190 grande échelle euh / avec des des / des choses tout de même a.../ assez / assez différentes /

gRA$d eSEl Ø // avEk de de // de Soz tu d´ mEm a // ase // ase difeRA$t //

a... 9

a 9 V

Contexte indexé :

23 Monsieur X / parce que X est maintenant euh / à Toulouse enfin il est /

m´sjØ x // paRs´ k´ x e mE$t´nA$ Ø // a tuluz A$fE$ il e //

euh 977

Ø 977 V

m Dictionnaire lemmatisé

Le dictionnaire des formes a été lemmatisé par le système PILAF (Procédures Interactives Appliquées au Français), système d'analyse du français mis au point par l'équipe TRILAN (TRaitement Informatique de la LAngue Naturelle) du Laboratoire de Génie Informatique (LGI) de Grenoble. Cette équipe fait actuellement partie du laboratoire CLIPS (Communication Langagière Inter Personne Système). Au niveau lexical, ce système propose des modules permettant l'analyse morphologique de textes et la génération de formes canoniques associées à une racine.

Le dictionnaire des bases lexicales, élaboré à partir du dictionnaire minimal de PILAF et enrichi en utilisant la version électronique de lexique de M. Gross (LADL 1986), contient environ 35.000 bases qui permettent la génération et la reconnaissance d'environ 250 000 formes.

Deux listes de résultats étaient fournis, l'une n'indiquant que les formes engendrées, l'autre chaque forme complétée par les variables grammaticales correspondantes. Pour chaque forme du dictionnaire et pour chaque variante phonétique ont été indiqués les homographes présents dans les textes avec leur lemme et le nombre de fois où ils apparaissent. (Courtin et al., 1990 ; Courtin & Dujardin, 1991 ; Courtin et al., 1992a ; Courtin et al., 1992b ; Dujardin et al., 1994 ; Dujardin et al., 1995). Une attention particulière a été portée sur les mots composés.

abandon abA$dO$ VCVCV 1

lemme : abandon 1

abandon subc sin mas

1262G engagées / comme X / puis ensuite / il y a eu / un abandon / un

A$ga'Je / kOm x / púi A$'súit / il ij a 'y / _$-n abA$'dO$ / _$

abandonné abA$dOne VCVCVCV 1

lemme : abandonner 1

abandonné ppas sin mas

473G Nous avons abandonné / pour un soir / un des haut lieux / de la gastronomie

nu-z avO$-z abA$dO'ne / puR _$ 'swa:R / _$ de o 'ljØ / d´ la gastROnOmi

2. Les variantes phonétiques

Dans la chaîne parlée, les sons ne sont pas isolés mais enchaînés les uns aux autres. La phonétique combinatoire est le domaine qui s'occupe de ces enchaînements et de l'interférence des sons les uns sur les autres.

Le phonème, unité abstraite, est une unité de référence qui a plusieurs réalisations phoniques. Ces différentes réalisations sont appelées les variantes du phonème.

Voici un exemple de variante du phonème /o/ :

"mauvaise" se réalise [mOvEz] ou [movez], dans les extraits suivants, on dira donc que le phonème /o/ a deux variantes [o] et [O], et que l'une ou l'autre des réalisations n'entraîne aucune modification de sens, c'est le cas des variantes libres.

a pas mal donné / ah elle est pas mauvaise / bien oui mais c'est peut-être ce qui l'a

a pa mal dOne // a El e pa movEz // bjE$ wi me s e p´-t EtR´ s´ ki l a

pièce / a un grand succès / que c'est une mauvaise pièce / et comme dit /

'pjEs / a _$ gRA$ syk'sE / k s E-t yn mOvEz 'pjEs / e kOm 'di /

2.1. Variantes

Étudier la distribution d'un phonème revient à voir les diverses places qu'il occupe dans la chaîne parlée. Deux réalisations sont dites en distributions complémentaires lorsque l'un des sons occupe une place que l'autre ne pourra jamais occuper. Par exemple, les différentes réalisations du phonème /l/ :

[l] en initiale absolue (lac --> [lak])

[l°] précédé d'une consonne occlusive sourde (peuple --> [p_pl°]).

Les variantes de ce types (les différentes variantes du /l/ en français) sont appelées des variantes combinatoires ou contextuelles, car elles dépendent de l'entourage phonique.

Quand un son dans le chaîne parlée empiète sur le son voisin on parle d'assimilation qui peut être :

• progressive, du son A vers le son B qui le suit :

exemple : dans "quatre" [katR°´] la consonne [R] sera sourde parce qu'elle est précédée d'une occlusive sourde dans la même syllabe. Ici on peut observer le cas où l'assourdissement se prolonge parce que les cordes vocales ne reprennent pas leur vibration.

ça fait quatre-vingt-dix / + parce que pour s'organiser hein c'est / a

sa fE ' katR°´ vE$ dis' // ps´ k´ puR s ORganize' E$ s e: // a

• régressive, du son B vers le son A qui le précède :

exemple : "médecine" [mEtsin], assourdissement de la consonne [d] qui va devenir [t] ce phénomène est dû à la présence d'une consonne sourde [s]. Cette réalisation s'explique par le phénomène de l'anticipation articulatoire.

moi j'ai envie de faire de la médecine hein / et j'ai demandé à

mwa' J E A$vi t' fER´ d´ la metsin' E$ // e J e d´mA$de' a

2.1. L'amuïssement

L'amuïssement est la disparition d'un son, souvent une voyelle non accentuée. En français, le "e" caduc est souvent amuï :

• "petite" est prononcée [ptit]

grande / la plus petite c'est sa / sa soeur / + et en haut c'est / celle qui a les

gRA$d´' // la ply ptit' s e sa: / sa s_R' // e A$ o' s E // sEl' kj a le

2.1. Résultats

Rappelons que l'ensemble du corpus comporte 7993 formes orthographiques dont 825 possèdent des variantes phonétiques soit 10,3% des formes orthographiques.

89,7% des formes ne possèdent pas de variantes, elles ne possèdent qu'une réalisation phonétique observée. Par exemple la préposition "à" est toujours réalisée [a].

Nombre de formes orthographiques	Nombre de variantes phonétiques
722	1
86	2
12	3
4	4
1	5

• 722 formes orthographiques possèdent 1 variante

exemple : "parlait" avec la prononciation de référence [paRle] connaît une variante : [paRlE].

et il a décrit la torture / quand personne n'en parlait / il a vécu /

e il a dekRi la tOR'ty:R / kA$ pERsOn n A$ paR'lE / il a ve'ky /

• 86 formes orthographiques possèdent 2 variantes

exemple : "médecine" avec la prononciation de référence [med´sin] connaît deux variantes : [medsin] et [metsin].

toutes sortes de raisons / la médecine et le malade / avaient également /

tut sORt´ d´ RE'zO$ / la medsin e l´ ma'lad / avE-t egal'mA$ /

moi j'ai envie de faire de la médecine hein / et j'ai demandé à

mwa' J E A$vi t' fER´ d´ la metsin' E$ // e J e d´mA$de' a

• 12 formes orthographiques possèdent 3 variantes

exemple : "parce que" avec la prononciation de référence [paRs´ k´] connaît trois variantes : [paRs k´] [pas´ k´] [ps´ k´].

là-dessus / parce que du fait / qu'on ne se rend pas compte / maintenant / à quel

la d'sy / paRs k´ dy 'fE / k O$ n s´ RA$ pA 'kO$:t / mE$t'nA$ / a kEl

moi / je lis dans mon boulot / parce qu'il faut que je lise bon euh / je lis

mwa' // J´ li ' dA$ mO$ bulo' / pas´ k i fo k´' J´ liz´' bO$ ´/ J´ li'

ça fait quatre-vingt-dix / + parce que pour s'organiser hein c'est / a

sa fE ' katR°´ vE$ dis' // ps´ k´ puR s ORganize' E$ s e: // a

• 4 formes orthographiques possèdent 4 variantes

exemple : "par exemple" avec la prononciation de référence [paR EgzA$pl´] connaît quatre variantes de prononciation [paR egzA$pl] [paR EgsA$pl°] [paR egzA$pl´] [par EgzA$pl].

certaines photos / auxquelles je tenais cependant / + par exemple / le théâtre

sERtEn´ foto' / okEl´ J´ t´nE s´'pA$dA$' // paR egzA$'pl´ / l´ tea'tR°´

c'est que ça dépersonnalise / toute chose // Par exemple / en

s E k sa depERsOna'li:z / tut 'So:z // paR Eg'sA$pl° / A$-n

une imitation / de la photographie / prolongée / par exemple /

yn imita'sjO$ / d´ la fOtOgRa'fi / pROlO$'Je / paR Eg'zA$pl /

certaines photos / x elles / on fait un album par exemple / + dans ce cas

sERtEn´ foto' / x E'l´ / O$ fE _$-n albOm' paR egzA$pl' // dA$ s ka

• 1 forme orthographique possède 5 variantes

exemple : "votre" avec la prononciation de référence [votR´] connaît cinq variantes de prononciation [vot] [votR] [vOt] [vOtR] [vOtR´].

voir votre carte

vwaR' vot kaRt´'

l'armée // Alors / je ne crois pas / toute votre histoire / ce serait

l aR'me // a'lO:R / J´ n´ kRwA 'pA / tut votR is'twa:R / s´ sRE-t

qui est un programme tout fait / + et si votre euh / votre secrétaire comptable là /

kj E ' _$ pR°ogRam´ tu fE' // e: si vOt' / vOt s´kR°etER´ k^O$tab´' la: /

à l'écoute / de votre entretien / de ce que cet homme d'action / est aussi est

a l e'kut / d´ vOtR A$tR´'tjE$ / d´ s k´ sEt Om d ak'sjO$ / E-t osi e

animaux // Mais vous dites vous-mêmes / dans tout votre livre / que la révolution /

ani'mo // mE vu dit vu 'mEm / dA$ tu vOtR´ 'liv°R / k´ la RevOly'sjO$ /

Conclusion

Ce travail préliminaire va nous permettre de dégager les différents types de variantes. Ainsi, par exemple, pour les voyelles, nous étudierons les changements de timbre, les différents cas d'assimilation, et pour les consonnes l'assimilation d'assourdissement et de sonorisation, ainsi que les différentes réalisations d'un phonème résulant d'un changement du lieu d'articulation, par exemple le /R/ en français qui peut être réalisé [r] apical (pointe de la langue), [R] dorso-uvulaire (réalisé avec le dos de la langue au niveau de la luette).

Les 3 corpus que nous possédons, représentant des niveaux de langue différents, nous nous proposons d'abord de faire une étude das variantes par corpus, puis par locuteurs afin de pouvoir faire une étude comparative des différents niveaux sociolinguistiques.

Références

Ahmad, M. (1993). Vingt heures de français parlé : aspect phonétique de la liaison. Thèse de Doctorat de 3e Cycle, Linguistique, Université Stendhal, Grenoble.

Belrhali, R., Dujardin, D., Boë, L-J., Courtin, J. (1997). Study and propositions of specific categories through the lemmatization of an orthographic-phonetic data base of spoken French : BDPho. Complex.

Belrhali, R., Dujardin, D., Courtin, J., Boë, L.-J. (1995). BDPHO : Une base de données lexicales orthographique-phonétique lemmatisée du français parlé. JADT, IIIe Journées Internationales d’Analyse Statistique des Données Textuelles, 11-13 Décembre, Rome, Italie.

Boë, L.-J., Tubach, J.-P. (1992). " De À à Zut " Dictionnaire phonétique du français parlé, Ellug, Grenoble.

Courtin, C., Dujardin, D., Genthial, D., Kowarski, I. (1990). Creation and implementation on micro-computers of large scale French language dictionaries. Conference on computational lexicography, Balatonszabadi, Hungary.

Courtin, J., Dujardin, D. (1991). Paramètres linguistiques du français dans le système PILAF. Rapport Technique RT 67, Laboratoire de Génie Informatique, Grenoble.

Courtin, J., Dujardin, D., Genthial, D., Kowarski, I. (1992). Outils lexicaux de l'équipe TRILAN : bilans et perspectives. Séminaire Lexique du GRECO-PRC Communication Homme-Machine, Toulouse, 93-109.

Courtin, J., Dujardin, D., Kowarski, I. (1992). PILAF : Software Tools for Lexicography and Text Research. COMPLEX’92 : 2nd Conference on Computational Lexicography and Text Research, Budapest, Hungary, pp. 93-109.

Desrochers, A., Jacques-Locmelis, W., Séguin, H. (1990). Répertoire thématique des sources de données et de matériel en français pour la recherche en sciences du langage. Rapport de Recherche n° 41 ; laboratoire de Psychologie Cognitive. Université d’Ottawa.

Dupriez, B. (1977). GRADUS, Les procédés littéraires, Dictionnaire, Collection 10-18.

Engwall ,G. (1984). Le vocabulaire du roman français (1962-1968). Dictionnaire des fréquences. Almqvist & Wiskel International, Stockholm.

Dujardin, D., Belrhali, R., Boë, L.J., Courtin, J. (1994). Lemmatisation du dictionnaire phonétique du français parlé " De A à Zut ". 20e JEP, GFCP-SFA, Lannion, 297-302.

Dujardin, D., Belrhali, R., Boë, L.J., Courtin, J. (1995). Morpho-Phonetic Relationships and Elaboration of De A à Zut A lexicon of Spoken French. XIIIth Int. Congr. of Phonetic Sciences, Stockholm, 4, 546-549.

Fouché, P. (1969). Traité de prononciation française, Paris : Klincksieck.

Gross, M. (1986). Lexicon-Grammar and the syntactic analysis of french. IIth International Conference on Computational Linguistics, Bonn, Hungary, 275-282.

Léon, P. (1996). Changements et variations phonétiques en français : facteurs linguistiques et sémiotiques. Revue de Phonétique Appliquée, 120, pp. 201-219.

Lerond, A. (1980). Dictionnaire de la prononciation, Paris : Larousse.

Lerot, J. (1993). Précis de linguistique générale. Propositions, Paris : les Éditions de Minuit.

Malécot, A. (1975). French liaison as a function of grammatical, phonetics and parlinguistic variables. Phonetica 32, 161-179.

Martinet, A. & Walter, H (1973). Dictionnaire de la prononciation française dans son usage réel, Paris : France-Expansion.

Salmon-Alt, S. (1996). La liaison dans BDPHO : indices systématiques de stratégies intra- et inter-individuelles. TER, Sciences du langage, Université Stendhal, Grenoble.

Van Eibergen, J. (1985. Corpus d’un français vernaculaire à caractère spontané et impératif. Bulletin de l’Institut de Phonétique de Grenoble, vol.15, pp. 35-74.

Warnant, L. (1987). Dictionnaire de la prononciation française dans sa norme actuelle. Paris-Gembloux : Duculot.

Sommaire des JADT 1998