Groupe d'Analyse des Données Textuelles - Ressources Textométriques
Ressources
Corpus
Corpus alignés au format TMX sur le site mkAlign
- Discours d'investiture de B. Obama : version anglaise et 4 traductions en français
- Discours de B. Obama le 04/06/2009 (Le Caire) : 3 langues (anglais, français, espagnol).
- Discours de B. Obama le 04/06/2009 (Le Caire) : 2 langues (français, arabe).
- Convention de sauvegarde des droits de l'homme et des libertés fondamentales : 3 langues.
- Corpus DH v1.1 : 2 langues (source : Corpus Droits de l'Homme, LDI, UMR 7187).
- La Divine Comédie. Partie 1 : l'Enfer : 5 langues (source : The Project Gutenberg).
- Corpus Alice au pays des mesures : (Sources : anglais, japonais, français (traduction 1), français (traduction 2), italien, chinois, polonais, russe, allemand)
- Alice au pays des merveilles : 8 langues (anglais, japonais, français (2 traductions), italien, chinois, polonais, russe, allemand) ; lemmatisation via treetagger (EN, FR, IT), segmentation et lemmatisation via chasen (JP), segmentation via ICTCLAS (ZH).
- Alice au pays des merveilles : idem que le précédent avec affichage sélectif des volets visés.
- Chacun des volets de l'alignement est accessible ici (extraction via mkAlign à partir du TMX précédent) :
- FR (traduction 1), FR (traduction 1 lemme), FR (traduction 2), FR (traduction 2 lemme), EN, EN (lemme), IT, IT (lemme), JP, JP (lemme), JP (segmenté), ZH, ZH (segmenté), PL, RU, ALL.
- Tous ces fichiers intègrent en fin de chaque ligne le segmenteur # permettant de les recharger alignés 2 à 2 en utilisant le segmenteur par défaut de mkAlign.
- Kit d'alignement Alice : fichier au format RTF contenant dans une colonne la version de référence en anglais, et une colonne à compléter en y intégrant le nouveau volet à aligner.
Bases Textométriques produites avec Le Trameur et réimportables :
- Base Prématurés 96 (cf "Projet Prématurés") ; 2 fichiers dans cette archive : pour le premier, chaque item de la trame est associé à 3 niveaux d'annotation (forme, catégorie, lemme), pour le second, chaque item est associé à 4 niveaux d'annotation (forme, catégorie, lemme, sémantique).
- Base Duchn : chaque item de la trame est associé à 3 niveaux d'annotation (forme, catégorie, lemme)
- Base Convention (Russe-UTF8) : chaque item de la trame est associé à 3 niveaux d'annotation (forme, catégorie, lemme)
- Base SOU 1790-2008 : chaque item de la trame est associé à 3 niveaux d'annotation (forme, catégorie, lemme). Descriptif : State of the Union (SOTU) provides access to the corpus of all the State of the Union addresses from 1790 to 2008. SOTU allows you to explore how specific words gain and lose prominence over time, and to link to information on the historical context for their use. SOTU focuses on the relationship between individual addresses as compared to the entire collection of addresses, highlighting what is different about the selected document. You are invited to try and understand from this information the connection between politics and language–between the state we are in, and the language which names it and calls it into being. cf State of the Union (Visualizations, Statistical Analysis, and Searchable texts).
Programmes / Procédures
SEGMENTS. Le programme segments permet de construire les segments répétés dans un fichier texte.
patron2graphe. Le programme patron2graphe permet de construire un graphe de séquence de terme correpondant à un patron donné.
minigrep multilingue. Filtrage dans des fichiers multilingues.
Babel Trameur (in progress). Génération d'une trame lexicométrique en Perl, Python, Java...