Sommaire des JADT 1998   

LA PAGE WEB DE LA BASE DE DONNÉES TEXTUELLES PORTEXT.

L’OUTIL, LES TEXTES JURIDIQUES, LES AIRES GÉOGRAPHIQUES

 

Carlos Maciel

Bases, Corpus et Langage

UPRESA 6039 - CNRS, INaLF

Université de Nice

98, bd E. Herriot B.P. 209, 06204 Nice cedex 3

 

1. Présentation

PORTEXT est une base de données textuelles en langue portugaise dont j'ai proposé la création à Nice, en 1988/1989.

Le modèle était parfaitement identifié ; il s'agissait en effet de créer des structures susceptibles de permettre à la langue portugaise de disposer d'un outil aussi important et performant que la base FRANTEXT. Le caractère ambitieux du projet nous a inévitablement conduit à adopter la même logique ainsi que les critères généraux de la grande sœur de langue française. Une seule grande différence s'imposait d'emblée ; elle tenait au fait que la base PORTEXT devait intégrer des textes de tous les pays lusophones ; par ailleurs, nous avons également dès le départ envisagé de traiter des textes assez diversifiés et, notamment, un certain nombre de documents fondamentaux appartenant au vaste domaine du droit, du commerce, des affaires.

Il va alors de soi que des questions essentielles ont été immédiatement soulevées ; elles concernent par exemple le problème épineux des variantes orthographiques (entre les usages brésiliens et portugais, ainsi qu'africains) et la réflexion sur la mise en place de la nouvelle réforme de l'orthographe, souhaitée par l'ensemble des pays lusophones. Et nous avons cherché à apporter des réponses satisfaisantes - et sans doute aussi contestables - à ces questions. Ces réponses s’inscrivent d’ailleurs dans notre logique de collaboration avec des partenaires lusophones, notamment portugais et brésiliens ; elles pourront par ailleurs - nous l’espérons - nourrir le débat nécessaire sur la problématique (toujours d’actualité) de la réforme de l’orthographe.

2. Une base généraliste

La vocation de PORTEXT est bien entendu généraliste. À l'heure actuelle, 119 titres intègrent le corpus (textes des XIXème et XXème siècles uniquement - pour l'instant). Même si les textes littéraires (XXème siècle uniquement) sont majoritaires, ceux qui relèvent du domaine juridique et administratif font également partie du corpus. Une place importante est en conséquence accordée au champ des textes se prêtant aux études terminologiques et, plus généralement, aux langues de spécialité.

3. La gestion des données linguistiques

L'information est traitée sous l'angle de l'analyse des données textuelles et la base niçoise fait notamment appel au logiciel Hyperbase (conçu par Étienne Brunet) et aux analyses arborées (de Xuan Luong). Les aspects documentaires - accès aux mots, aux contextes et concordances - sont ainsi complétés par les listes de fréquences et l'analyse statistique de la distribution dans le corpus des différentes unités qui composent le texte (mots, formes, unités de texte, unités de lexique). Le volet juridique de la base PORTEXT, dont les principes généraux avaient été présentés à Lisbonne en 1990, fait, dans cette perspective, l’objet d’un cédérom thématique (textes juridiques - ce qui comprend notamment tous les textes constitutionnels, disposés chronologiquement, de tous les différents pays lusophones). Il s’agit là d’un ensemble de 35 textes - ou 70, si nous tenons compte du fait que nous proposons une version originale et une version "normalisée" (en termes orthographiques).

La page WEB est limitée aux aspects documentaires : accès aux mots, accès aux textes - elle permet de travailler sur un texte, sur un pays ou aire géographique ou encore sur un ensemble de textes, comme on peut le voir dans le descriptif qui suit. La page WEB de PORTEXT - ouvrant sur le vaste espace de la latinité - comprend par ailleurs également un dictionnaire qui tient compte :

a) des variantes orthographiques du portugais ;

b) des principales langues latines.

Outre la page d’accueil - en quatre langues - portugais, français, espagnol et italien, le "dictionnaire" comprend également des entrées dans les langues indiquées, permettant ainsi la consultation à partir de l’une des quatre langues en référence.

4. Quelques mots pour conclure

Voilà donc, en quelques traits rapides, un état des lieux de la base PORTEXT, dans sa configuration actuelle mais aussi en termes de perspectives : on souligne la contribution qu'elle peut apporter, sur le plan de la méthode ainsi que sur celui, plus général, de la gestion des quantités disponibles. Les références sont là, suffisamment nombreuses, et les matériaux sont là aussi, qui nous permettront, dans un proche avenir, d'envisager également les croisements des données ainsi que l'approche lexicographique et contrastive.

Base PORTEXT

textes disponibles à Nice

aires géographiques et genres

 

Pays

Genre

Auteurs

Titres

Afrique lusophone

 

22

46

Angola

littérature

16

26

 

juridique

 

1

Cap Vert

littérature

5

14

 

juridique

 

1

Mozambique

littérature

1

1

 

juridique

 

1

Guinée-Bissau

juridique

 

1

Saint-Thomas et Prince

juridique

 

1

Portugal

 

 

55

 

littérature

9

31

 

politiques

2

11

 

juridiques

 

13

Brésil

 

 

18

 

littérature

6

8

 

juridiques

 

10

Total

 

 

 

 

 

Auteurs

Titres

Afrique lusophone

 

22

46

Portugal

 

11

55

Brésil

 

6

18

 

TOTAL

39

119

 

La base PORTEXT

sur Internet

"Mode d’emploi"

A) Le choix du mot :

- le "mot" doit ici être compris dans le sens de "forme". La base PORTEXT n'est en effet pas lemmatisée. En conséquence, si vous souhaitez obtenir, par exemple, la forme

juiz - introduisez simplement cette forme - substantif masculin singulier -, à l'aide du clavier de votre machine ;

pour juízes - substantif masculin pluriel -, vous devez procéder de la même façon.

Et il en va de même pour ce qui est des formes verbales (compete, atribuído, garante…), par exemple, ainsi que, naturellement, pour ce qui est des adjectifs et substantifs en général.

B) Le choix de la langue :

La base PORTEXT essaie de répondre aux besoins des usagers qui n'ont pas une connaissance suffisante de la langue portugaise écrite et de ses variantes orthographiques. Ces usagers peuvent en conséquence

introduire la forme recherchée

en portugais,

mais ils peuvent également, grâce au menu déroulant et au dictionnaire en quatre langues intégré à la base,

partir de la forme correspondante

en français,

en espagnol

ou en italien.

C) Le choix du texte :

Grâce au menu déroulant, il est possible de choisir un texte spécifiquement, sur lequel l'usager souhaite travailler.

Il est toutefois également possible :

- de travailler sur un ensemble de textes :

I-appartenant à un même genre (cinq hypothèses)

I.1 Constitutions

I.2 Juridiques (code civil, code commercial…)

I.3 Littéraires

I.4 Politiques

I.5 Autres

II-ou consulter tous les genres considérés à la fois. Dans ce cas, il est possible de limiter sa recherche à une seule aire géographique, à savoir

II.1 l'Afrique lusophone

II.2 le Brésil

II.3 le Portugal

II.4 Autres (Asie)

III-ou encore, autre hypothèse, regrouper, pour la recherche, tous les textes qui composent la base (toutes aires géographiques confondues) : tous les genres + toutes les aires géographiques.

D) L'orthographe :

Pour tenir compte des variantes orthographiques, nous proposons également un choix entre

I-une version originale

- dans ce cas, l'usager aura accès au texte dans sa version originale (c'est-à-dire, dans ce cas, l'édition de référence - qui n'est pas toujours la première édition).

Dans la version originale, l'usager aura

- les marques d'édition (très instables et donc changeantes) telles qu'elles se trouvent dans le texte d'origine) : , n.° ou encore n. ou N. pour número ; dec-lei, dec.-lei, Dec.-Lei, Dec. Lei, pour Decreto-Lei ; etc.

- les marques relevant des variantes orthographiques

1-à cause des réformes (nombreuses) de l'orthographe depuis le XIXème siècle. Ainsi,

exempto, aujourd'hui isento,

et

paiz, aujourd'hui país,

assumpto, aujourd’hui assunto,

commetter, aujourd’hui cometer,

hierarchia, aujourd’hui hierarquia,

officialato, aujourd’hui oficialato,

reproduzil-as, aujourd’hui reproduzi-las,

delle, aujourd’hui dele,

nelle, aujourd’hui nele,

funcção, aujourd’hui função,

technica, aujourd’hui técnica,

paragrapho, aujourd’hui parágrafo,

acclamação, aujourd'hui aclamação,

princeza, aujourd'hui princesa,

aggressão, aujourd’hui agressão,

theor, aujourd'hui teor,

capitulo, aujourd'hui capítulo,

physica, aujourd'hui física,

dynastia, aujourd'hui dinastia,

etc.

2-à cause des différences qui aujourd'hui encore existent, et qui caractérisent les différentes aires (notamment en termes d'usages portugais et brésiliens). Ainsi,

Dans les textes portugais :

acção, acto, factor, sector, efectuar, etc.,

amnistia, indemnizar, etc.,

adoptar, adopção, etc.,

económico, autónomo, etc.

Dans les textes brésiliens :

ação, ato, fator, setor, efetuar, etc.,

anistia, indenizar, etc.,

adotar, adoção, etc.,

econômico, autônomo, etc.

II-une version normalisée

Dans laquelle les différences faisant l'objet de I, 2 sont gommées. Cette version s'inspire (de loin) de la réforme de l'orthographe récemment proposée aux pays lusophones. Cette réforme n'a pas finalement été adoptée ; nous nous sommes en conséquence limité à gommer les différences (finalement peu nombreuses) entre les usages portugais et brésiliens, pour que le chercheur puisse parcourir toute la base en faisant appel à une seule forme. Ainsi, la réforme proposée prévoyait la chute du "c" de acção ainsi que du "p" de adoptar

Ainsi,

Si l'usager travaille sur la version originale :

- il aura accès aux marques d'édition et aux caractéristiques d'une époque (qui sera éventuellement celle de l'édition) ;

Si l'usager travaille sur la version normalisée :

1- les marques d'édition disparaissent

N°, N.°, n°, n.° ou encore N. sont remplacés par "número"; §, Par. et Par sont remplacés par "parágrafo", et ainsi de suite

2-les caractéristiques orthographiques d'une époque disparaissent :

Exempto devient isento, paiz devient país, et ainsi de suite ;

3-les différences (non fondamentales) dans les usages (notamment Portugal/Brésil) sont gommées :

acção devient ação, adopção devient adoção, et ainsi de suite. Les oppositions ou différences du type facto/fato, registo/registro, qui ne sont pas de même nature, sont naturellement conservées.

E) L'édition et la numérotation des pages

On tiendra compte du fait que les pages sont numérotées. Cette numérotation est celle des éditions de référence (v. la bibliographie). Toutefois, pour des raisons pratiques (et linguistiques - au niveau notamment de la restitution des contextes et concordances), la suite logique des paragraphes a été respectée : lorsque la fin de la page ne correspond pas avec la fin du paragraphe, la numérotation est décalée (elle remonte et est indiquée au début du paragraphe). La correspondance n’est donc pas (toujours) parfaite entre l’édition et le texte restitué par l’ordinateur.

F) Le trait d’union

Le trait d’union est systématiquement maintenu. L’usage du trait d’union n’est certes pas stable en langue portugaise. Toutefois, la question verbale - et notamment la mesóclise - imposait une règle commune : jurídico-administrativo, mais aussi exprime-se ou encore dir-se-ia constituent donc chacun une seule unité.

Les expressions latines - dont la présence est notamment importante dans certains textes juridiques - sont traitées comme des composés lexicalisés. Dans ce cas, le trait d’union, parfois utilisé, est généralisé. Ainsi : ex-officio, ex-vi, ad-nutum, ad-valorem, ipso-facto, ad-referendum, habeas-corpus, causa-mortis

G) Le codage

Tous les textes sont codés.

Les codes comprennent trois unités "fixes", qui renvoient

1 - à l’aire géographique

A = Afrique Lusophone

B = Brésil

P = Portugal

2 - au genre

C = pour constitution

J = pour juridique (code civil, code commercial…)

L = pour littéraire

P = pour politique

A = pour autres

3 - à la norme orthographique

N = pour normalisée

O = pour original

AINSI, par exemple :

PCOC1822 = Constitution portugaise de 1822, version originale

PJNTraba = Lei Geral do Trabalho de Portugal, version normalisée

BLNClari = Clarissa (de Érico Veríssimo), version normalisée

ACOAngol = Constitution angolaise, version originale

Dans le cas des pays africains, la quatrième lettre désigne le pays. Les quatre dernières désignent le texte. Ainsi :

ALOMTeSo = Afrique Lusophone, Littérature, version originale, Mozambique, Terra Sonâmbula

Sommaire des JADT 1998