EXPLORATION STATISTIQUE DE BASES DOCUMENTAIRES
Yves Baulac - Jean Moscarola
Sphinx Développement - Université de Savoie
7, rue Blaise Pascal 74600 Seynod
Summary
The use of textual data bases make it difficult to get a synthetic knowledge of their content. That is always the fact when the search cannot be defined by a single query.
Textual datamining technics can be very efficient in such a situation. The purpose of it, is to lead navigation into the data and to work out synthesis using the explicite or implicite structuration of the data base and of its content.
In a first part we are going to define typical structuration which can be recognised to show how they can be used by the textual datamining tools.
In the second part of the paper an exemple of the use and efficiency of these technics will be given with regard to the field of bibliography analysis.
L'accès aux grandes bases de données documentaires ou bibliographiques (Internet, CD Rom) est de plus en plus facile et aisé. Mais le mode d'accès par requête nécessite d'avoir une idée précise de ce qu'on y recherche, dans le cas contraire on est vite submergé par une masse d'informations. Comment alors aider celui qui doit prendre connaissance des centaines de références bibliographiques pertinentes pour son sujet, ou l'entreprise qui veut connaître la tendance des dépôts de brevet concernant son secteur d'activité ?
Les corpus issus des bases de données documentaires ont l'avantage de posséder une structuration très forte dont on peut tirer parti. Mais nous verrons que cette structure est complexe et imprécise et que sa reconstitution dans le logiciel d'analyse de données textuelles n'ira pas toujours sans mal.
Nous avons été confrontés à ces questions en tant que concepteurs et utilisateurs du Sphinx Lexica. Nous adopterons successivement ces deux points de vue en décrivant dans une première partie les aspects techniques du problème puis en les illustrant par un exemple tiré de la base ELECTRE.
Structure d'un corpus issu d'une base documentaire
Tous les travaux portant sur lanalyse de données textuelles conviennent que la première tâche à accomplir avant toute statistique est une préparation du texte que lon appellera selon les cas une structuration, un formatage, une segmentation, une identification des unités statistiques.
Nous ne parlons pas ici du découpage en unités lexicométriques (chaîne, forme, mot, lemme, segment) mais du découpage préalable en fragments de texte qui pourront être retrouvés et/ou comparés les uns aux autres en fonction des unités lexicométriques quils contiennent.
Cette phase, un peu à linstar du nettoyage dun jeu de données en statistique quantitative, est souvent passée sous silence. Soit parce que la segmentation est évidente (par exemple si elle est fondée sur la notion de fichier informatique), soit parce quelle est préétablie dune manière irréfutable (par exemple par des séparateurs facilement identifiables), soit parce quelle est effectuée manuellement, soit parce quelle est absente (étude dun texte unique), soit parce quelle est considérée comme sans influence sur les résultats de lexploitation.
Une structuration complexe et dégradée
Le texte contient trois types de chaînes de caractères : les informations textuelles proprement dites (résumé, titre, procédé, compte rendu, mais aussi noms, adresses, fonctions, ), le contexte (expressions alphanumériques représentant des nombres, des catégories, des codes), les balises (caractères ou chaînes de caractères séparant les différentes informations).
La tâche de repérage de ces informations est difficile. Nous avons en effet à décoder une structuration complexe, hiérarchisée, incomplète, souvent dégradée, implicite.
Pour le discours ou le recueil, lacquisition des données passe le plus souvent par une phase manuelle de vérification du format, dajout des éléments de contexte qui caractérisent lélément ou sa provenance. On profitera de ce travail dans un traitement de textes pour compléter et rectifier les éléments de découpage. Par contre, dans un corpus documentaire, lacquisition des données est entièrement automatique : une simple requête nous donnera en quelques secondes un corpus volumineux.
Il serait fastidieux, voire décourageant, dêtre obligé de pré-traiter manuellement un tel corpus. Dautant plus que lobjectif de lanalyse statistique dune base documentaire est souvent peu ambitieux. On cherche moins une typologie des unités ou du vocabulaire quune prise de connaissance du contenu par le biais dune statistique descriptive.
Une structuration dégradée
La structuration peut être totalement explicite lorsque nous accédons à la base via un SGBD ou bien lorsque le texte respecte une norme de balisage logique telle que la norme SGML.
Mais nous navons généralement pas un tel accès direct et complet aux grandes bases documentaires. Lanalyse doit porter sur un texte qui nous est fourni en réponse à une requête. Lors de lextraction, lapplication gestionnaire de la base documentaire effectue des simplifications et des ellipses qui vont compliquer la tâche de restructuration.
Et lorsque ces bases sont accessibles dans leur intégralité, la structure du document a plutôt été prévue pour faciliter la lecture par lhomme que lanalyse par la machine. On trouvera ainsi mêlées des balises typographiques, des balises syntaxiques, des balises graphiques.
Des corpus "multitextes"
Le discours, le recueil, la question ouverte sont des corpus que nous pouvons qualifier de "monotexte". Les analyses porteront sur lensemble du corpus et il est vrai que les décomptes ne dépendront pas ou peu de la segmentation, quelle soit en paragraphes, en pages voire en unités de longueur fixe.
Par contre, un corpus documentaire est "multitexte", plusieurs variables textuelles de nature complètement différente peuvent coexister dans un même corpus. On trouvera ainsi dans un corpus issu dune base de brevets pharmaceutiques le résumé du procédé, les coordonnées du déposant, les effets secondaires, autant de textes qui ne sauraient être analysés ensemble.
Des contextes imbriqués
Dans la question ouverte, les variables de contexte qui sont les autres données de lenquête auront été mises en forme lors de la saisie ; leur décodage et leur affectation à un fragment de texte est donc préétabli. Dans le discours, il ny a pas ou peu de contexte. Dans le recueil, le contexte sera essentiellement le document, facile à identifier.
Par contre, dans un corpus documentaire les éléments de contexte, numériques ou nominaux, sont étroitement mêlés au(x) texte(s). Il ne sera pas toujours facile de les identifier comme tels et de les décoder. Les chaînes numériques ou quasi-numériques donneront lieu à des variables numériques ou codées. Les chaînes courtes avec une forte répétitivité et un faible nombre de valeurs différentes donneront lieu à des variables nominales.
Une exploitation toutefois plus simple
Les textes sont exempts de "bruit" : Il ny a pas de chaînes de caractères inutiles comme on en trouve de manière caricaturale dans une page html.
La syntaxe, le vocabulaire, le style sont très réguliers dun fragment à lautre.
Le langage est simple et il ny a pas de figures de rhétorique ou de modalités linguistiques complexes.
Les textes pourront être simplifiés : la simplification du corpus ne se pose en effet pas dans les mêmes termes que pour les textes littéraires, discursifs ou conversationnels. La polysémie y est beaucoup moins fréquente, on sintéresse à lénoncé et pas à lénonciation. On est loin ici de la problématique "Faut-il lemmatiser ?", "Faut-il regrouper par racine ?", "Faut-il compter tous les mots ou bien en ignorer certains ?", "Va-t-on utiliser un thesaurus ?".
Dans la plupart des cas, on sera rapidement amené à créer de nouvelles colonnes contenant un texte simplifié qui servira de base aux décomptes et aux analyses.
Une structuration implicite
Linformation contenue dans un champ contextuel nest pas toujours utilisable telle quelle. Différents types de structuration implicite peuvent avoir été utilisés par les auteurs de la banque de données, que cette structuration implicite soit propre à la base ou systématiquement utilisée dans le domaine. Voici quelques types de structuration implicite.
Expressions régulières : le champ suit une syntaxe précise (modèle) et linformation intéressante est une des parties du modèle. Exemples : Le pays qui sera toujours mis entre parenthèses et sur deux lettres dans une adresse - La référence bibliographique qui sera toujours mise entre crochets - Le type du procédé qui sera le premier mot suivi de deux points.
Informations numériques commentées : linformation quil nous importe de récupérer se trouve au milieu dun groupe de mots la décrivant ou la complétant. Exemples : Le code postal dans une adresse - Une population dans une description géographique - Lannée dans une bibliographie.
Contexte multiple : le contexte est formé de plusieurs mots qui nont pas de signification les uns par rapport aux autres mais pour des raisons diverses (économie, provenance, sémantique, ) apparaissent dans le même champ séparés par un espace ou tout autre caractère non utilisé dans le libellé de linformation. Il sera nécessaire de scinder ce champ en plusieurs variables, chacune reprenant les informations de même nature. Exemples : Titre et auteur ; Nom et qualité ; Poids et âge.
Les écueils
Il est évident que les écueils ne manquent pas et que la liste est sans fin. Nous citons dans cette partie les principaux obstacles auxquels nous avons été confrontés.
Champs communs à plusieurs fiches
La structuration du corpus initial en fiches et en champs peut saccompagner dune structuration plus large en thèmes, en parties, en années. Ce contexte de niveau supérieur ne sera pas répété à chacune des fiches. Il sagit de jalons dont la valeur devra être propagée pour toutes les fiches jusquà la prochaine occurrence.
Utilisation de balises typographiques et semi-graphiques
Quand une base documentaire est intégralement à notre disposition, il arrive fréquemment que les éléments de structuration ne soient pas repérés par une syntaxe particulière qui dénaturerait le texte et en compliquerait la lecture mais par une typographie. Les grandes sections du corpus ou les noms des champs pourront ainsi apparaître dans une police ou un corps qui les distinguent du reste du texte.
Utilisation dune syntaxe non réservée pour les balises
On trouvera souvent des corpus balisés tout simplement par le nom du champ sur une nouvelle ligne suivi de deux points.
Le problème vient du fait que lon trouvera une syntaxe similaire, voire identique, à lintérieur dun champ. Si une simple lecture permet à lhomme de différencier une balise rare et une partie du texte, la machine utilisera la reproductivité de ces singularités pour proposer de conserver ou non cette balise hypothétique.
Type des variables de contexte
Si les variables de contextes sont typées dans la base de données initiale, le type napparaît plus dans le corpus que nous devons structurer. Lanalyse de lensemble de la colonne permettra de déterminer la nature numérique, nominale, codée ou textuelle du champ. Mais seul lutilisateur pourra déterminer si un ensemble de chiffres est un nombre sur lequel il y a effectivement un ordre ou bien un code qui sera interprété.
Information répartie dans plusieurs champs
Par exemple linformation sur la provenance géographique dun brevet se trouve à la fois dans le champ "Déposant" et dans le champ "Inventeur". Avant de pouvoir exploiter le corpus, il sera nécessaire de concaténer ces deux champs dans une nouvelle colonne de notre feuille de données textuelles.
Exceptions volontaires
Des exceptions, volontairement présentes dans la base de données peuvent perturber par exemple un ensemble de valeurs numériques. Citons deux cas :
∑
Des informations textuelles sont ajoutées pour marquer un intervalle, une imprécision, un complément dinformation (De 20 à 50 ; >100 ; Environ 300 ; 20000 en 1996)∑
Un changement dunité intervient pour les quelques observations qui ont des valeurs très différentes des autres (20KF ; 3MF ; 450KF ; 2KF)Lintervention de lutilisateur
Nous espérons avoir montré que le processus est très complexe et quil ny a pas dans le cas général de solution complètement automatisable. Le programme dintégration ne saurait être une boite noire et lintervention de lutilisateur sera déterminante. Dans certains cas, la complexité du traitement empêche dailleurs sa programmation par des choix multiples dans un dialogue.
Le logiciel propose, lutilisateur dispose
Lordinateur effectue le calcul combinatoire de la proposition la plus vraisemblable mais lintervention de lutilisateur sera indispensable pour valider, compléter, rectifier les solutions proposées.
Cest lutilisateur qui indiquera, au vu du texte, la syntaxe des balises, la syntaxe des jalons, les caractères séparateurs.
Cest lutilisateur qui donnera, sur proposition du logiciel, la liste des balises à retenir, les autres étant en fait partie du texte proprement dit.
Cest lutilisateur qui donnera, sur proposition du logiciel, le type de chaque contexte (nominal, numérique, code).
Démarche par approximations successives
Lexpérience montre que lon a rarement un résultat satisfaisant du premier coup. Il nest pas rare que lanalyse lexicale mette immédiatement en évidence des mélanges de champs ou de fiches qui auront été le fait dune singularité dans la structuration. Il faudra corriger le texte initial et de reprendre lopération dintégration. Cette démarche par essai-erreur ne sera effectivement adoptée que si la facilité, la rapidité et la finesse de la mise en uvre sont au rendez-vous.
Programmation de traitements des chaînes de caractères
Les traitements souhaités ne sont pas toujours explicitables par des simples choix dans un dialogue et l'utilisateur averti sera amené dans certains cas à utiliser un langage de programmation (comme le langage Basic), principalement pour deux objectifs, la reconnaissance des balises et lexplicitation des contextes.
Reconnaissance des balises : Cette opération se déroulera dans le traitement de textes, avant lintégration dans le logiciel danalyse de données textuelles. Des macro-commandes (applicables globalement sur la totalité du texte) permettront de supprimer les passages inopportuns de retrouver rapidement des typographies, des régularités et de les transformer en balises reconnaissables. Ces macro-commandes sont essentiellement des combinaisons d'opérations de recherche/remplacement et d'insertion/suppression.
Explicitation des contextes : Dans le logiciel danalyse de données textuelles, lutilisateur aura à sa disposition un langage de programmation similaire avec des fonctions dextraction de chaîne dans une expression régulière, par exemple pour retrouver le énième mot dun contexte, pour retrouver le premier nombre cité, pour supprimer les parties du texte entre parenthèses.
Lanalyse lexicale pour la reconnaissance de la structure implicite des contextes
Les structures régulières ne permettent pas toujours de mettre en évidence les éléments pertinents dans un contexte. On sera amené à utiliser les techniques danalyse lexicale pour le traitement de ces contextes complexes.
∑
Reprendre le haut du lexique pour retrouver les principales modalités∑
Calculer les segments répétés (exemple : les noms dauteurs en fin darticles)∑
Étudier la concordance et les lexiques relatifs pour mettre en évidence des variantes d'écriture (exemple : les noms dentreprise mentionnées sous des libellés un peu différents)Exemple : analyse dune base de données bibliographiques
Pour illustrer ce qui précède examinons le cas des bases de données bibliographiques en prenant pour exemple la base ELECTRE. Elle contient lensemble des titres de langue française disponibles à la vente en librairie. Nous illustrerons notre propos sur lextrait des 484 fiches bibliographiques dont le titre contient le mot éthique. Notre objectif est davoir un aperçu de la littérature sur ce thème.
En sélectionnant éthique dans le champs titre, on exporte les 484 fiches vers un fichier texte. On récupère ainsi un corpus qui garde les traces de la structuration de la base dorigine (Figure n° 2). Dans le cas présent on lidentifie facilement par la répétition des intitulés Auteurs, Titre... Ces mots sont toujours situés en début de ligne et sont suivis de 2 points. Avec la ligne de tirets séparant chaque fiche ils définissent des balises qui structurent le corpus.
En détectant ces balises un logiciel comme Le Sphinx Lexica permet de reconstituer la structure de la base dorigine et cela même si les fiches sont souvent incomplètes. Dans notre exemple on reconstitue ainsi 7 champs que nous appellerons désormais variables : Auteurs, Titre, Éditeur, Date de publication, ISBN, Résumé, Matière qui définissent linformation contenue dans la base dorigine.
Figure n° 1 Le corpus de départ |
------------------------------------------------------------------------------- Auteurs : Ciair, André Titre : Kierkegaard existence et éthique / André Ciair Éditeur : PUF Date de publication : 31/12/99 ISBN : 2-13-048330-5 ------------------------------------------------------------------------------- Titre : La santé face aux droits de l'homme, à l'éthique et aux morales / préf. Daniel Tarschys, Jean-Pierre Massué, Guido Gerin Éditeur : Conseil de l'Europe Date de publication : 13/12/96 ISBN : 92-871-3054-X Résumé : Sont étudiés, ici, cent vingt cas pratiques, où les auteurs évaluent les réactions possibles du professionnel de santé face à la législation internationale, l'éthique et les principales morales religieuses et laïques. Matière : santé publique : droit éthique médicale médecine : droit ------------------------------------------------------------------------------- |
Grâce aux ressources de lanalyse lexicale on obtient très rapidement un aperçu du contenu de ces ouvrages. Par exemple le haut du lexique des titres nous donne une idées de leur contenu, mais il nous montre également les limites de nos données. Comme le montre la présence des formes trad, ed,.....le lexique des titres confond le titre proprement dit et la mention de lauteur ou de léditeur, ceci interdit de conclure sur la fréquence des noms propres. Kierkegard est bien lobjet du titre dune des fiches de la figure 1 mais il est aussi lauteur de plusieurs ouvrages.
Pour parer à cet obstacle on peut utiliser un élément implicite de structuration. La présence du caractère / à la fin de lénoncé du titre permet en effet disoler la seule partie significative du titre. On obtient ainsi une variable contenant uniquement la mention du titre. Nous modifions ainsi la structure de la base initiale en créant un nouvelle variable Titre exclusif dupliquant une partie du champ dorigine.
Dautre transformations de la structure initiale peuvent être utiles par exemple en ramenant le contenu de plusieurs variables à une seule. Ainsi en réunissant les variables Titre exclusif et Résumé on obtient un lexique décrivant mieux les ouvrages étudiés. La figure 2 présente les 10 éléments les plus fréquents du lexique réduit provenant des variables que nous venons dévoquer. Elle met bien en évidence ce quon peut gagner en matière dapproximation lexicale. On aurait pu également tirer parti de la structure syntaxique des titres et produire un lexique lemmatisé. Mais on aurait alors perdu la sensibilité au nombre des termes éthique(s) et question(s) dans le lexique des résumés. Cette variation est très significative.
Si on complète laperçu par la recherche des segments répétés (autre manière dexploiter les structures implicites au niveau des découpages élémentaires) de la variable regroupant Titre exclusif et Résumé on obtient une idée beaucoup plus précise des contenus auxquels la notion déthique renvoie.
Figure n° 2 Approximation lexicale par le haut du lexique. Influence de la structuration |
. TITRE : 10 premières occurrences du lexique réduit éthique (513), Jean (72), trad (57), éd (51 préf (43), dir (41), Pierre (39), politique (30 vie (30), sciences (29), RESUME : 5 premières occurrences du lexique réduit éthique (194), auteur (45), réflexion (38), morale (35 philosophie (32), éthiques (31), question (31), vie (31 problèmes (29), questions (25), TITRE EXLUSIF + RESUME : 10 premières occurrences du lexique réduit éthique (711), vie (61), philosophie (53), morale (51 sciences (51), droit (48), politique (47), auteur (46 réflexion (42), question (38),
|
20 premiers Segments répétés de TITRE EXCLUSIF + RESUME éthique politique : 21 éthique sciences : 20 national éthique : 19 sciences vie : 17 comité consultatif national éthique : 15 éthique économique : 15 éthique médicale : 14 éthique sciences vie : 14 vie santé : 14 éthique chrétienne : 13 éthique esthétique : 12 éthique nicomaque : 12 recherche biomédicale : 12 droits homme : 11 éthique biomédicale : 11 éthique psychanalyse : 11 éthique sociale : 11 réflexion éthique : 11 éthique droit : 10 |
Ce premier stade de lapproximation lexicale conduit à des interrogations plus poussées : peut-on plus largement que par le simple examen des lexiques ou des segments répétés identifier les thématiques dominantes de ce corpus et suivre son évolution au cours du temps ?
La réponse la première question peut être trouvée par lanalyse de la structure interne du corpus des titres, des résumés ou des matières. Ainsi la figure n° 3 présente les résultats dune analyse factorielle conduite à partir des 50 premiers termes du lexique de la variable des matières. On a dabord procédé à une classification des fiches fondée sur une analyse factorielle multiple conduite sur le tableau de présence de ces 50 premiers termes. Les 3 classes définissent des groupes de fiches présentant les mêmes types dassociation entre matières. On enrichit alors la base dune nouvelle variable codant chaque fiche selon son appartenance à lune des 3 classes. Enfin pour caractériser chacune de ces classes on établit le tableau lexical répertoriant pour chacune delle le nombre dapparitions des termes retenus pour construire la classification.
On met ainsi en évidence 3 thématiques. La classe 1 correspond aux conceptions spécialisées de léthique comme code régulant des pratiques scientifiques ou sociales, elle soppose aux classes 2 et 3 plus ancrées sur la conception héritée de la tradition morale et philosophique. Parmi ces 2 classes on distingue un ensemble dorientation plus pédagogique et appliqué (classe 3) qui soppose à des approches plus théoriques et fondamentales (classe 2).
Figure n° 3 Classes thématiques établies à partir des 50 premiers éléments lexicaux du champ des matières |
La réponse à la seconde question nécessite dintroduire la notion de période ce qui conduit à enrichir à nouveau la base de données initiale. A partir de la variable date de publication on peut en effet définir les différentes périodes par rapport auxquelles cerner les évolutions de la bibliographie. En établissant un tableau lexical qui dénombre les occurrences selon les périodes on peut mettre en évidence des évolutions significatives. La figure 4 en donne une illustration sur la base des 25 premiers segments répétés de la variable TITRE + RESUME. La carte ci-dessous met clairement en évidence lévolution dune notion à lorigine ancrée dans la tradition des sciences philosophiques qui évolue vers les pratiques spécialisées. On remarque également lémergence dans les années 80 dune problématique liée à la régulation publique des activités scientifiques.
Figure n° 4 Évolution des segments répétés selon les périodes |
Ces 2 exemples ne font québaucher les nombreuses problématiques qui peuvent être élaborées en tirant parti de la structuration du corpus initial et de son enrichissement progressif au fil de linvestigation : distinguer dans le corpus différents champs sémantiques, mettre à jour des structurations implicites, créer de nouvelles codifications...
On peut ainsi parvenir très vite à la mise à jour des traits dominants fournis par lanalyse statistique. Leur interprétation demeure le privilège du lecteur. Lanalyse ne fait que déplacer son attention dun corpus très volumineux vers un matériau beaucoup plus synthétique qui concentre son attention sur des propriétés qui échappent en général à la lecture classique. Reste à confirmer les interprétations par le retour au texte et aux différents éléments du corpus qui permettront de vérifier par une lecture classique, mais sélective, les idées que le matériau lexical aura fait naître.
Conclusion
Les outils de lanalyse lexicale peuvent être un précieux auxiliaire pour nous aider à prendre connaissance des corpus que linformatique met désormais à notre disposition. Mais ces masses considérables dinformation risquent de rester hors de notre portée sil nous faut les découvrir par les méthodes de la lecture classique.
Tout comme la lecture rapide, lapproximation lexicale repose sur la capacité de parcourir le corpus dans un survol guidé par des repères structurants. La statistique lexicale et les ressources informatiques nous aident à le faire en nous offrant une mobilité entre les différentes parties, ou niveaux du corpus, que nous pouvons faire varier en fonction de nos curiosités.
Les outils sévaluent à leur capacité daccompagner les différents points de vue du lecteur tout en lui révélant les propriété du corpus quil examine. Il pourra alors le transformer et le modeler en fonction de ses attentions et de ses questions.
La machine peut ainsi réduire des volumes décourageants par leur ampleur en leur substituant quelques informations sélectionnées par des procédés statistiques et perceptibles dun seul coup d'il. Mais cest au lecteur de donner le sens et dinterpréter les données que la machine transforme.
Un outil performant et souple, un lecteur curieux et cultivé, des données riches de sens, lorsque par bonheur ces trois conditions sont remplies, les méthodes que nous venons dexposer peuvent faire gagner beaucoup de temps et conduire à des découvertes inattendues.
Références
Baulac, Y., De Lagarde, J., Moscarola, J. (1986-1997). Le Sphinx Lexica, logiciel et manuel de référence, Sphinx développement.
Meunier, J.-G. (1996). La théorie cognitive : son impact sur le traitement de l'information textuelle, Science - Technologie - Connaissance, PUG.
Moscarola, J. (1994). Les actes de langage - Protocoles d'enquêtes et analyse des données textuelles, Colloque Consensus Ex-Machina, La Sorbonne, Paris.
Vuillemin, A. (1993). Les banques de données littéraires, PULIM.