LA PAGE WEB DE LA BASE DE DONNÉES TEXTUELLES PORTEXT.
LOUTIL, LES TEXTES JURIDIQUES, LES AIRES GÉOGRAPHIQUES
Carlos Maciel
Bases, Corpus et Langage
UPRESA 6039 - CNRS, INaLF
Université de Nice
98, bd E. Herriot B.P. 209, 06204 Nice cedex 3
1. Présentation
PORTEXT est une base de données textuelles en langue portugaise dont j'ai proposé la création à Nice, en 1988/1989.
Le modèle était parfaitement identifié ; il s'agissait en effet de créer des structures susceptibles de permettre à la langue portugaise de disposer d'un outil aussi important et performant que la base FRANTEXT. Le caractère ambitieux du projet nous a inévitablement conduit à adopter la même logique ainsi que les critères généraux de la grande sur de langue française. Une seule grande différence s'imposait d'emblée ; elle tenait au fait que la base PORTEXT devait intégrer des textes de tous les pays lusophones ; par ailleurs, nous avons également dès le départ envisagé de traiter des textes assez diversifiés et, notamment, un certain nombre de documents fondamentaux appartenant au vaste domaine du droit, du commerce, des affaires.
Il va alors de soi que des questions essentielles ont été immédiatement soulevées ; elles concernent par exemple le problème épineux des variantes orthographiques (entre les usages brésiliens et portugais, ainsi qu'africains) et la réflexion sur la mise en place de la nouvelle réforme de l'orthographe, souhaitée par l'ensemble des pays lusophones. Et nous avons cherché à apporter des réponses satisfaisantes - et sans doute aussi contestables - à ces questions. Ces réponses sinscrivent dailleurs dans notre logique de collaboration avec des partenaires lusophones, notamment portugais et brésiliens ; elles pourront par ailleurs - nous lespérons - nourrir le débat nécessaire sur la problématique (toujours dactualité) de la réforme de lorthographe.
2. Une base généraliste
La vocation de PORTEXT est bien entendu généraliste. À l'heure actuelle, 119 titres intègrent le corpus (textes des XIXème et XXème siècles uniquement - pour l'instant). Même si les textes littéraires (XXème siècle uniquement) sont majoritaires, ceux qui relèvent du domaine juridique et administratif font également partie du corpus. Une place importante est en conséquence accordée au champ des textes se prêtant aux études terminologiques et, plus généralement, aux langues de spécialité.
3. La gestion des données linguistiques
L'information est traitée sous l'angle de l'analyse des données textuelles et la base niçoise fait notamment appel au logiciel Hyperbase (conçu par Étienne Brunet) et aux analyses arborées (de Xuan Luong). Les aspects documentaires - accès aux mots, aux contextes et concordances - sont ainsi complétés par les listes de fréquences et l'analyse statistique de la distribution dans le corpus des différentes unités qui composent le texte (mots, formes, unités de texte, unités de lexique). Le volet juridique de la base PORTEXT, dont les principes généraux avaient été présentés à Lisbonne en 1990, fait, dans cette perspective, lobjet dun cédérom thématique (textes juridiques - ce qui comprend notamment tous les textes constitutionnels, disposés chronologiquement, de tous les différents pays lusophones). Il sagit là dun ensemble de 35 textes - ou 70, si nous tenons compte du fait que nous proposons une version originale et une version "normalisée" (en termes orthographiques).
La page WEB est limitée aux aspects documentaires : accès aux mots, accès aux textes - elle permet de travailler sur un texte, sur un pays ou aire géographique ou encore sur un ensemble de textes, comme on peut le voir dans le descriptif qui suit. La page WEB de PORTEXT - ouvrant sur le vaste espace de la latinité - comprend par ailleurs également un dictionnaire qui tient compte :
a) des variantes orthographiques du portugais ;
b) des principales langues latines.
Outre la page daccueil - en quatre langues - portugais, français, espagnol et italien, le "dictionnaire" comprend également des entrées dans les langues indiquées, permettant ainsi la consultation à partir de lune des quatre langues en référence.
4. Quelques mots pour conclure
Voilà donc, en quelques traits rapides, un état des lieux de la base PORTEXT, dans sa configuration actuelle mais aussi en termes de perspectives : on souligne la contribution qu'elle peut apporter, sur le plan de la méthode ainsi que sur celui, plus général, de la gestion des quantités disponibles. Les références sont là, suffisamment nombreuses, et les matériaux sont là aussi, qui nous permettront, dans un proche avenir, d'envisager également les croisements des données ainsi que l'approche lexicographique et contrastive.
Base PORTEXT
textes disponibles à Nice
aires géographiques et genres
Pays |
Genre |
Auteurs |
Titres |
Afrique lusophone |
|
22 |
46 |
Angola |
littérature |
16 |
26 |
|
juridique |
|
1 |
Cap Vert |
littérature |
5 |
14 |
|
juridique |
|
1 |
Mozambique |
littérature |
1 |
1 |
|
juridique |
|
1 |
Guinée-Bissau |
juridique |
|
1 |
Saint-Thomas et Prince |
juridique |
|
1 |
Portugal |
|
|
55 |
|
littérature |
9 |
31 |
|
politiques |
2 |
11 |
|
juridiques |
|
13 |
Brésil |
|
|
18 |
|
littérature |
6 |
8 |
|
juridiques |
|
10 |
Total |
|
|
|
|
|
Auteurs |
Titres |
Afrique lusophone |
|
22 |
46 |
Portugal |
|
11 |
55 |
Brésil |
|
6 |
18 |
|
TOTAL |
39 |
119 |
La base PORTEXT
sur Internet
"Mode demploi"
A) Le choix du mot :
- le "mot" doit ici être compris dans le sens de "forme". La base PORTEXT n'est en effet pas lemmatisée. En conséquence, si vous souhaitez obtenir, par exemple, la forme
juiz - introduisez simplement cette forme - substantif masculin singulier -, à l'aide du clavier de votre machine ;
pour juízes - substantif masculin pluriel -, vous devez procéder de la même façon.
Et il en va de même pour ce qui est des formes verbales (compete, atribuído, garante ), par exemple, ainsi que, naturellement, pour ce qui est des adjectifs et substantifs en général.
B) Le choix de la langue :
La base PORTEXT essaie de répondre aux besoins des usagers qui n'ont pas une connaissance suffisante de la langue portugaise écrite et de ses variantes orthographiques. Ces usagers peuvent en conséquence
introduire la forme recherchée
en portugais,
mais ils peuvent également, grâce au menu déroulant et au dictionnaire en quatre langues intégré à la base,
partir de la forme correspondante
en français,
en espagnol
ou en italien.
C) Le choix du texte :
Grâce au menu déroulant, il est possible de choisir un texte spécifiquement, sur lequel l'usager souhaite travailler.
Il est toutefois également possible :
- de travailler sur un ensemble de textes :
I-appartenant à un même genre (cinq hypothèses)
I.1 Constitutions
I.2 Juridiques (code civil, code commercial )
I.3 Littéraires
I.4 Politiques
I.5 Autres
II-ou consulter tous les genres considérés à la fois. Dans ce cas, il est possible de limiter sa recherche à une seule aire géographique, à savoir
II.1 l'Afrique lusophone
II.2 le Brésil
II.3 le Portugal
II.4 Autres (Asie)
III-ou encore, autre hypothèse, regrouper, pour la recherche, tous les textes qui composent la base (toutes aires géographiques confondues) : tous les genres + toutes les aires géographiques.
D) L'orthographe :
Pour tenir compte des variantes orthographiques, nous proposons également un choix entre
I-une version originale
- dans ce cas, l'usager aura accès au texte dans sa version originale (c'est-à-dire, dans ce cas, l'édition de référence - qui n'est pas toujours la première édition).
Dans la version originale, l'usager aura
- les marques d'édition (très instables et donc changeantes) telles qu'elles se trouvent dans le texte d'origine) : n°, n.° ou encore n. ou N. pour número ; dec-lei, dec.-lei, Dec.-Lei, Dec. Lei, pour Decreto-Lei ; etc.
- les marques relevant des variantes orthographiques
1-à cause des réformes (nombreuses) de l'orthographe depuis le XIXème siècle. Ainsi,
exempto, aujourd'hui isento,
et
paiz, aujourd'hui país,
assumpto, aujourdhui assunto,
commetter, aujourdhui cometer,
hierarchia, aujourdhui hierarquia,
officialato, aujourdhui oficialato,
reproduzil-as, aujourdhui reproduzi-las,
delle, aujourdhui dele,
nelle, aujourdhui nele,
funcção, aujourdhui função,
technica, aujourdhui técnica,
paragrapho, aujourdhui parágrafo,
acclamação, aujourd'hui aclamação,
princeza, aujourd'hui princesa,
aggressão, aujourdhui agressão,
theor, aujourd'hui teor,
capitulo, aujourd'hui capítulo,
physica, aujourd'hui física,
dynastia, aujourd'hui dinastia,
etc.
2-à cause des différences qui aujourd'hui encore existent, et qui caractérisent les différentes aires (notamment en termes d'usages portugais et brésiliens). Ainsi,
Dans les textes portugais :
acção, acto, factor, sector, efectuar, etc.,
amnistia, indemnizar, etc.,
adoptar, adopção, etc.,
económico, autónomo, etc.
Dans les textes brésiliens :
ação, ato, fator, setor, efetuar, etc.,
anistia, indenizar, etc.,
adotar, adoção, etc.,
econômico, autônomo, etc.
II-une version normalisée
Dans laquelle les différences faisant l'objet de I, 2 sont gommées. Cette version s'inspire (de loin) de la réforme de l'orthographe récemment proposée aux pays lusophones. Cette réforme n'a pas finalement été adoptée ; nous nous sommes en conséquence limité à gommer les différences (finalement peu nombreuses) entre les usages portugais et brésiliens, pour que le chercheur puisse parcourir toute la base en faisant appel à une seule forme. Ainsi, la réforme proposée prévoyait la chute du "c" de acção ainsi que du "p" de adoptar
Ainsi,
Si l'usager travaille sur la version originale :
- il aura accès aux marques d'édition et aux caractéristiques d'une époque (qui sera éventuellement celle de l'édition) ;
Si l'usager travaille sur la version normalisée :
1- les marques d'édition disparaissent
N°, N.°, n°, n.° ou encore N. sont remplacés par "número"; §, Par. et Par sont remplacés par "parágrafo", et ainsi de suite
2-les caractéristiques orthographiques d'une époque disparaissent :
Exempto devient isento, paiz devient país, et ainsi de suite ;
3-les différences (non fondamentales) dans les usages (notamment Portugal/Brésil) sont gommées :
acção devient ação, adopção devient adoção, et ainsi de suite. Les oppositions ou différences du type facto/fato, registo/registro, qui ne sont pas de même nature, sont naturellement conservées.
E) L'édition et la numérotation des pages
On tiendra compte du fait que les pages sont numérotées. Cette numérotation est celle des éditions de référence (v. la bibliographie). Toutefois, pour des raisons pratiques (et linguistiques - au niveau notamment de la restitution des contextes et concordances), la suite logique des paragraphes a été respectée : lorsque la fin de la page ne correspond pas avec la fin du paragraphe, la numérotation est décalée (elle remonte et est indiquée au début du paragraphe). La correspondance nest donc pas (toujours) parfaite entre lédition et le texte restitué par lordinateur.
F) Le trait dunion
Le trait dunion est systématiquement maintenu. Lusage du trait dunion nest certes pas stable en langue portugaise. Toutefois, la question verbale - et notamment la mesóclise - imposait une règle commune : jurídico-administrativo, mais aussi exprime-se ou encore dir-se-ia constituent donc chacun une seule unité.
Les expressions latines - dont la présence est notamment importante dans certains textes juridiques - sont traitées comme des composés lexicalisés. Dans ce cas, le trait dunion, parfois utilisé, est généralisé. Ainsi : ex-officio, ex-vi, ad-nutum, ad-valorem, ipso-facto, ad-referendum, habeas-corpus, causa-mortis
G) Le codage
Tous les textes sont codés.
Les codes comprennent trois unités "fixes", qui renvoient
1 - à laire géographique
A = Afrique Lusophone
B = Brésil
P = Portugal
2 - au genre
C = pour constitution
J = pour juridique (code civil, code commercial )
L = pour littéraire
P = pour politique
A = pour autres
3 - à la norme orthographique
N = pour normalisée
O = pour original
AINSI, par exemple :
PCOC1822 = Constitution portugaise de 1822, version originale
PJNTraba = Lei Geral do Trabalho de Portugal, version normalisée
BLNClari = Clarissa (de Érico Veríssimo), version normalisée
ACOAngol = Constitution angolaise, version originale
Dans le cas des pays africains, la quatrième lettre désigne le pays. Les quatre dernières désignent le texte. Ainsi :
ALOMTeSo = Afrique Lusophone, Littérature, version originale, Mozambique, Terra Sonâmbula