Corpus
Corpus alignés au format TMX sur le site mkAlign
- Discours d'investiture de B. Obama : version anglaise et 4 traductions en français
- Discours de B. Obama le 04/06/2009 (Le Caire) : 3 langues (anglais, français, espagnol).
- Discours de B. Obama le 04/06/2009 (Le Caire) : 2 langues (français, arabe).
- Convention de sauvegarde des droits de l'homme et des libertés fondamentales : 3 langues.
- Corpus DH v1.1 : 2 langues (source : Corpus Droits de l'Homme, LDI, UMR 7187).
- La Divine Comédie. Partie 1 : l'Enfer : 5 langues (source : The Project Gutenberg).
- Corpus Alice au pays des mesures : (Sources : anglais, japonais, français (traduction 1), français (traduction 2), italien, chinois, polonais, russe, allemand)
- Alice au pays des merveilles : 8 langues (anglais, japonais, français (2 traductions), italien, chinois, polonais, russe, allemand) ; lemmatisation via treetagger (EN, FR, IT), segmentation et lemmatisation via chasen (JP), segmentation via ICTCLAS (ZH).
- Alice au pays des merveilles : idem que le précédent avec affichage sélectif des volets visés.
- Chacun des volets de l'alignement est accessible ici (extraction via mkAlign à partir du TMX précédent) :
- FR (traduction 1), FR (traduction 1 lemme), FR (traduction 2), FR (traduction 2 lemme), EN, EN (lemme), IT, IT (lemme), JP, JP (lemme), JP (segmenté), ZH, ZH (segmenté), PL, RU, ALL.
- Tous ces fichiers intègrent en fin de chaque ligne le segmenteur # permettant de les recharger alignés 2 à 2 en utilisant le segmenteur par défaut de mkAlign.
- Kit d'alignement Alice : fichier au format RTF contenant dans une colonne la version de référence en anglais, et une colonne à compléter en y intégrant le nouveau volet à aligner.