ÉTUDE EXPÉRIMENTALE COMPARATIVE DES MÉTHODES STATISTIQUES POUR LA CLASSIFICATION DES DONNÉES TEXTUELLES
Ilham Benhadid, Jean-Guy Meunier, Saâd Hamidi, Zira Remaki,
Moses Nyongwa
Laboratoire de lANalyse Cognitive de lInformation
Université du Québec à Montréal
Meunier.jean-guy@uqam.ca
{
Ilham, saad, zira, nyongwa}@pluton.lanci.uqam.ca
Abstract
The main task of this paper is to propose a comparison between classifiers (K-means, Markov, Art) on the textual data. Indeed, the goal is to provide an assistance to attain some aspects of the informational or semiotic content of a text (discursive, lexical, hypertextual, etc). Our document is composed from a merge between a spirale text (Belgium) and Hydro-Québec text. The methodology consists in to extract the related Hydro-Québec text from spirale text. We should mention that these two text do not share the same semantics. The results indicated that there is no big major difference between all the applied classifiers. For this reason, in the future perspective works the emphasis will be put on the computational and algorithm simplicity in order to improve the processing time.
1. Introduction
De nos jours, lorganisation du contenu de gros corpus en des configurations interprétables simpose en vue de faciliter et dassister lanalyste (terminologue ou autre) dans ses tâches de navigation et dexploration. Dans notre perspective, lextraction des connaissances peut être vue comme un processus de traitement classificatoire qui identifie des segments de textes contenant un "même" type dinformation. Les tâches de dépistage, d'exploration et de récupération de l'information ou "connaissances" contenues dans ces textes sont devenues extrêmement ardues et de moins en moins possibles dans des temps raisonnables. Or, le problème qui retient notre attention dans l'analyse de textes par ordinateur est précisément celui du processus par lequel on peut, dans un texte, accéder à son contenu original et en extraire ces dites connaissances. Dans cet article, nous proposons une étude comparative de certains classifieurs dont le but commun est de créer des classes de segments de textes de contenu sémantique similaire.
`
2. Problématique
La littérature technique tant de la gestion documentaire (Salton 1994) que de lanalyse du contenu (Virbel 1993, Delany 1993 Lenhert 1994, Croft 1995, Bookman 1994) montre quil est devenu impératif de développer des outils permettant d'atteindre non seulement le document ou le segment d'un texte mais leur contenu. Certaines m_thodes sont symboliques, i.e. procèdent par règles et/ou par grammaire (Sabbah 1991, Lenhert, 1995, Croft 1994, Desclées et 1995 et col.). D'autres sont statistiques (Church 1991, Wilks 1994, Veronis, 1991, Balpe et Lelu, 1995, Salem et Lebart 1993 etc). Un des problèmes majeurs cependant de ces méthodes est celui de pouvoir effectuer cet accès en un temps raisonnable sans toutefois altérer leur pouvoir classificatoire et ceci, même sur de gros corpus.
3. Matériel et Méthode
Létude a porté, dune part sur 56 pages de la revue spirale (Belgique) dans lesquelles nous avons introduit 4 pages du texte dHydro-Québec (texte A), et dautre part sur un plus gros corpus constitué des 180 pages de spirale et de 40 pages dHydro-Québec (texte B). Nous avons procédé ensuite à une transformation des textes pour en obtenir une représentation matricielle. A chaque segment du texte (32 lignes) correspond une ligne de la matrice dont chaque élément indique, pour un lemme donné, la fréquence de son apparition dans le segment. Une méthode de décomposition en quadri-Grams a été appliquée sur les lemmes afin dobtenir une matrice de taille réduite par rapport aux mots. Pour plus de notions sur cette méthode, nous renvoyons le lecteur aux articles de [Kimbrell, 88] et de [Damashek, 95].
On produit ainsi une matrice indiquant pour chaque lemme sa fréquence dans chaque segment du texte. Nous obtenons 59 segments et 496 lemmes pour le texte A et 256 segments et 9545 lemmes pour le texte B. Nous procédons alors à la comparaison de trois méthodes de classification dont nous exposons le principe général dans ce qui suit.
a. La méthode des k-means : Le principe de cette méthode introduite par MacQeen en 1967 repose sur une classification par centres mobiles. Soit I un ensemble de n individus caractérisés par p mesures (variables). On suppose que lespace Rp supportant les n individus est muni dune distance euclidienne (ou autre) entre le ieme individu et une classe l définie par :
D(i,l)=({1£j£ p}[X(i,j)-Xm(l,j)]2)1/2
où X(i,j) est la valeur de la jème variable pour le ième individu et Xm sa moyenne dans la classe l.
On détermine une partition initiale de lensemble des individus I en K classes par tirage pseudo-aléatoire. Lalgorithme consiste ensuite à déterminer en une ou plusieurs itérations les nouveaux centres des classes dune nouvelle partition P(n,K) induite par la réaffectation de lensemble I des individus dans les K classes de façon à minimiser lerreur :
E[P(n,K)]=Âi=1,n D[i,l(i)]2
où l(i) est la classe du ieme individu, P[n,K] la partition induite par la réaffectation des individus dans les K classes et D[i,l(i)] la distance euclidienne entre lindividu i et le centre de sa classe l(i).
b. Le réseau connexionniste Art : L'idée de base du modèle ART est celle d'un système d'interaction entre 2 niveaux qui entrent en résonance mutuelle. Le système reçoit en un premier niveau N1 des stimuli qui sont envoyés mais aussi modifiés (selon une distribution et un poids particulier) au deuxième niveau N2 qui est un niveau d'archivage. Arrive donc au deuxième niveau un pattern différent de celui qui était à l'intrant. La correspondance entre le pattern prototypal et le pattern intrant est alors mesurée à l'aide d'un processus dit de résonance. Ce processus consiste à comparer les patterns intrants au pattern prototype. S'il y a correspondance, l'intrant sera alors classé avec le prototype, sinon il sera considéré comme un prototype en émergence et, il servira également comme nouveau gabarit aux autres intrants que le système introduira. Au fur et à mesure que l'apprentissage se poursuit, il y a consolidation de cette résonance [Carpenter et Grossberg 1988].
c. Le modèle des champs de Markov : Le modèle des champs de Markov, comme tout modèle probabiliste, considère les objets à classer comme des réalisations dune famille de variables aléatoires. A nos segments, définis sur notre corpus, est associée une famille de variables aléatoires munies dune distance (euclidienne ou autre) morpho-syntaxique et jouissant dune propriété locale suivant un système de voisinage. Ainsi, le champ de variables aléatoires est identifié à un champ de Markov [Bouchaffra et Meunier, 95, 96]. Le détail de lexpérimentation de cette méthode est exposé dans larticle [Remaki et Meunier, JADT 98].
4. Présentation des résultats
Notons dabord que les segments dans le texte A sont répartis de la façon suivante : Spirale (de 1 à 41 et de 46 à 60), Hydro-Québec (de 43 à 45) et le segment 42 chevauche entre les deux textes. Dans le cas du texte B, ce sont les premier et dernier segments dHydro-Québec qui chevauchent avec le texte de spirale.
Lanalyse des résultats obtenus peut être menée selon deux points de vue : la comparaison du comportement des classifieurs quant à la classification des segments dHydro-Québec supposés contenir la même information sémantique, ainsi que de leur degré defficacité face à de gros corpus. Les trois méthodes citées ci-dessus génèrent des classes de segments qui présentent une certaine similarité lexicale entre eux. On sattend a priori, à ce que les segments dHydro-Québec se retrouvent dans une même classe. Les résultats obtenus sur le texte A et pour les trois classifieurs se présentent comme suit :
Modèle de Markov : classe1 [1, 2, 3, 4, 5, 15, 19, 27, 31, 32] , classe2 [6, 7, 9, 17, 24], classe3 [8, 14, 38], classe4 [10, 35, 50], classe5 [11, 12, 13, 18, 23], classe6 [16, 33], classe7 [20, 22, 26, 29, 51], classe8 [21, 30], classe9 [25, 28, 34], classe10 [36, 37, 39, 48], classe11 [40, 41, 42, 54], classe12 [43, 44, 45], classe13 [47, 55, 58], classe14 [49, 52], classe15 [53], classe16 [56, 57], classe17 [59]
La méthode des K-means : classe1 [5, 6, 7, 8, 9, 11, 15, 24, 26, 27, 28, 32], classe2 [3, 4], classe3 [2, 10], classe4 [43, 44, 45], classe5 [35, 36, 37, 39, 40], classe6 [52, 53, 55], classe7 [1, 14], classe8 [12,13], classe9 [29, 30, 31], classe10 [23, 56, 57], classe11 [17, 49, 51], classe12 [16, 18, 19, 20, 21, 22], classe13 [33, 34], classe14 [41, 48, 54], classe15 [38, 42], classe16 [46, 47, 50, 58], classe17 [25, 59]
Le réseau connexionniste ART : classe1 [3, 32], classe2 [24, 29, 33, 38, 45, 58], classe3 [59], classe4 [49, 51, 54], classe5 [39, 55, 56, 57], classe6 [16, 17], classe7 [34], classe8 [52], classe9 [40, 47], classe 10 [12, 37, 46, 53], classe11 [1, 35, 36, 41, 42, 43, 44, 48], classe12 [10, 15, 21, 30, 50],
classe13 [2, 4, 5, 6, 7, 8, 9, 11, 14, 18, 19, 20, 22, 23, 25, 26, 27, 28, 31], classe14 [13], classe15 [39, 52]
En analysant ces résultats, nous constatons que les méthodes de Markov et des K-means partitionnent les segments de lHydro-Québec dune façon quasi-similaire. En effet, la partition obtenue pour chacune des 2 méthodes contient une classe constituée exclusivement par les segments 43, 44 et 45. Dans les 2 cas, le segment 42 se retrouve avec des segments de Spirale. Nous pouvons expliquer ceci par le fait que ce segment contient 2 informations sémantiques différentes. Dans le cas du modèle ART, la discrimination entre les segments de lHydro-Québec et de Spirale nest pas très forte. Sur le texte B, un résultat préliminaire qui nous semble intéressant est que le modèle de Markov a pu partitionner les segments du texte dHydro-Québec dans des classes à part. La méthode des K-means a donné également des classes propres aux segments dHydro-Québec, mais en a classé quelques-uns avec des segments de Spirale. Ceci pourrait être dû à plusieurs facteurs. La méthode des K-means dépend fortement de la classification initiale et de lordre dentrée des individus à classer contrairement au modèle de Markov. La probabilité de retrouver le même n-gram dans différents segments est élevée ce qui pourrait à priori expliquer cette classification. Ceci pourrait être confirmé en comparant de tels résultats avec une classification obtenue en prenant comme lemmes les mots du texte.
5. Conclusion
Cette étude a consisté à explorer différents classifieurs sur un même texte traitant de sujets de nature sémantique différente. Ceci nous a permis de procéder à une comparaison des classifications obtenues. Cependant, en sus de ces résultats une analyse plus approfondie au niveau des mots dans une même classe, pourrait expliquer plus profondément les différences dans les résultats. Nous envisageons également de compléter cette étude en comparant les classifications obtenues, dune part sur les N-grams et dautre part sur les mots. Ceci nous permettra de _voir_ dans quel cas nous accédons mieux au contenu sémantique. En effet, une bonne classification savère très importante du point de vue terminologie, extraction de connaissances ou plus particulièrement navigation hypertextuelle.
Références
Balpe, J. P., Lelu, A., Papy, F., & I, S. (1996). Techniques avancées pour l'hypertexte. Paris : Hermes.
Burr, D. J. (1987). Experiments with a connectionist text reader. IEEE First International Conference on Neural Networks,San Diego, 717-24
Church, K., Gale, W., Hanks, P., & Hindle, D. (1989). Word Associations and Typical Predicate-Argument Relations. International Workhop on Parsing technologies, Carnegie Mellon University, Aug. 28-31,
Church, K. W., & Hanks, P. (1990).Word association norms, mutual informaton, and lexicography. Computational Linguistics 16 , 22-29.
Croft, W. B. L., & Leah. (1996). Combining Classifiers in Text Categorization in Proceedings of the 19th International Conference on Research and Development in Information Retrieval (SIGIR '96) Zurich, Switzerland, 289-297.
Damashek, M. (1995). Gauging Similarity with N-grams : Language-Independent Categorization of Text. Science, Vol. 267, 843-848.
Delany, & P. Landow (Ed. ), The Digital Word: Text Based Computing in the Humanities. Cambridge, Mass : MIT Press.
Grossberg, S. , & Carpenter, S. (1987). Self Organization of Stable Category Recognition Codes for Analog Input Patterns. Applied Optics 26, 4919- 4930.
Kahonen, T. (1982). Clustering, taxonomy and topological Maps of Patterns. IEEE Sixth International Conference on Pattern Recognition, 114-122.
Kimbrell, R. E. (1988). Searching for Text? Send an N-grams!. Byte, 297-312.
Lebart, L., Salem, A. (1994). Statistique textuelle. Paris : Dunod.
Lelu, A. (1995). Hypertextes : la voie de l'analyse des données. In S. Bolasco, L. Lebart, A. Salem (éds.), Analisi statistica dei dati testuali vol 2. (pp. 85-96). Rome : CISU.
Lehnert, W. G., & Riloff, E. (1994). Information Extraction as a Basis for High-Precision Text Classification, ACM Transactions on Information Systems, 296-333.
Reinert, M. (1995). Quelques aspects du choix des unités d'analyse et de leur contrôle dans la méthode Alceste. In S. Bolasco, L. Lebart, A. Salem (éds), Analisi Statistica dei Dati Testuali. vol 1, (pp. 19-27). Rome : CISU.
Salton, G. , Allan, J. , & Buckley, C. (1994). Automatic Stucturing and Retrieval of Large Text File. Communications of the ACM 37 (2), 97-107.
Veronis, J., Ide, N. M., & Harie , S. (1990). Utilisation de grands réseaux de neurones comme modèles de représentatons sémantiques. Neuronimes.
Virbel, J. (1987).L'apport de connaissances linguistiques à l'interprétation des structures textuelles. Structure des documents, Bigre++Globule 53 , 77-97.
Virbel, J. E., F. Pascual, E. (1992). La lecture assistée par ordinateur, Rapport de recherche. Toulouse : Laboratoire IRIT.