Les linguistiques de corpus

LDC
LDC

Intégralité de l'ouvrage au format PDF : version PDF



Les linguistiques de corpus - Table des matières

REMERCIEMENTS version PDF

INTRODUCTION version PDF

  1. LE REGAIN D'INTÉRÊT POUR LES CORPUS
  2. À QUOI SERVENT LES CORPUS ANNOTÉS ?
      2.1. La linguistique descriptive anglo-saxonne et ses questions
      2.2. Le changement de cap en TALN
  3. CHOIX TERMINOLOGIQUES
  4. NOTATIONS
  5. ORIENTATION DE L'OUVRAGE
      5.1. L'écrit au travers de corpus enrichis de langues vivantes
      5.2. Les corpus, les ressources et les recherches de langue anglaise
      5.3. Un point de vue aux frontières de la linguistique
      5.4. La diversité des publics concernés
  6. DÉMARCHE SUIVIE
      6.1. Les corpus annotés et leurs utilisations
      6.2. Dimensions transversales
      6.3. Méthodologies et techniques
  7. PRINCIPAUX CORPUS CITÉS
      7.1. Corpus anglais ou américains
      7.2. Corpus français

LES CORPUS ANNOTES ET LEURS UTILISATIONS

CHAPITRE I. LES CORPUS ÉTIQUETÉS version PDF
  1. DÉFINITIONS
      1.1. Exemples
      1.2. L'inévitable éparpillement des étiquetages
      1.3. Une représentation canonique
      1.4. Types d'étiquetage
  2. ÉTIQUETAGE PARTIEL ET TYPOLOGIE DE TEXTES
      2.1. Circularité des démarches typologiques habituelles
      2.2. Dégager les corrélations de traits linguistiques : D. Biber
      2.3. Généralité des typologies induites
  3. ÉTIQUETAGE INTEGRAL ET SOCIO-STYLISTIQUE
      3.1. Repérer les catégories et les suites de catégories de différents locuteurs
      3.2. Varier le jeu d'étiquettes selon les phénomènes observés
      3.3. Une première opposition : style nominal et style verbal
      3.4. Examen des patrons syntaxiques caractéristiques de chaque type de locuteur
      3.5. Préciser l'emploi des adjectifs : qualificatifs et relationnels
      3.6. Evaluation et perspectives
  4. UTILISER ÉTIQUETEURS ET CORPUS ÉTIQUETÉS
      4.1. Adapter l'étiquetage aux objectifs de recherche
      4.2. Environnements de catégorisation et de manipulation de texte étiqueté
  5. ENJEUX THÉORIQUES
      5.1. Le dit est le dire
      5.2. Linguistique et textualité
      5.3. Analyses multi-dimensionnelles

CHAPITRE II. LES CORPUS ARBORÉS version PDF
  1. DIVERSITÉ DES CORPUS ARBORÉS
      1.1. Noter des relations syntaxiques
      1.1. Obtenir des analyses
      1.2. Types d'analyse
      1.3. Analyseurs de texte " tout-venant "
      1.4. Niveaux d'analyse
  2. UNE RÉALISATION EXEMPLAIRE : SUSANNE
      2.1. Une annotation " exhaustive "
      2.2. Informations fournies dans Susanne
  3. PHRASÉOLOGIE ET TRAITEMENTS SYNTAXIQUES
      3.1. Le renouveau des études linguistiques de la phraséologie
      3.2. La flexibilité en corpus d'expressions polylexicales
      3.3. La variation de termes en langue de spécialité
      3.4. La recherche de candidats termes
      3.5. Enjeux pratiques et théoriques
  4. UTILISER DES PARSEURS ET DES CORPUS ARBORÉS
      4.1. Utiliser des parseurs
      4.2. Utiliser des corpus arborés

CHAPITRE III. LES RESSOURCES LEXICALES POUR L'ÉTIQUETAGE SÉMANTIQUE version PDF
  1. UN OBJECTIF: LA DÉSAMBIGUISATION LEXICALE
  2. UNE OPPOSITION FONDAMENTALE : CONSTRUCTION LEXICALE OU CONCEPTUELLE
      2.1. Bases de connaissances lexicales
      2.2. Bases de connaissances conceptuelles
      2.3. Une opposition réelle mais floue
  3. UNE GRANDE DIVERSITÉ DE RESSOURCES LEXICALES
      3.1. Des distinctions de sens plus ou moins fines
      3.2. Des ressources générales ou spécialisées
      3.3. Des sources plus ou moins informatisées
  4. UN EXEMPLE DE RÉSEAU LEXICAL : WORDNET
      4.1. Un projet ambitieux
      4.2. Une structure riche et différenciée
  5. TABLER SUR L'EXISTANT

DIMENSIONS TRANSVERSALES

CHAPITRE IV. DES MOTS AUX SENS : SÉMANTIQUE EN CORPUS version PDF
  1. DÉFINITIONS ET ENJEUX
      1.1. Un objectif commun : accéder au sens
      1.2. Des applications variées
  2. CONSTRUIRE AUTOMATIQUEMENT DES ENTRÉES DE DICTIONNAIRE
      2.1. Des ébauches d'entrées de dictionnaires
      2.2. Une méthode entièrement automatique
      2.3. Les limites d'une approche empirique
  3. FAIRE DES DISTINCTIONS DE SENS DE MOTS POUR LA RECHERCHE DOCUMENTAIRE
      3.1. Retrouver des textes dans une base documentaire
      3.2. Désambiguïser des corpus à l'aide de WordNet
      3.3. De la désambiguïsation lexicale à la recherche documentaire
  4. UN MÊME PARTI PRIS D'EMPIRISME
      4.1. Fonder une sémantique sur les corpus
      4.2. Exploiter des résultats approximatifs
      4.3. Combiner des techniques simples
      4.4. Modéliser par ajustements successifs
      4.5. Expérimenter pour mieux expliquer

CHAPITRE V. LE LANGAGE AU FIL DU TEMPS : CORPUS ET DIACHRONIE version PDF
  1. DÉFINITIONS ET ENJEUX
  2. UN CORPUS POUR L'ÉTUDE DE LA DIACHRONIE : ARCHER
      2.1. L'anglais et l'américain de 1650 à aujourd'hui
      2.2. Echantillonnage des registres
      2.3. Structuration temporelle
      2.4. Représenter les états de langue ou des idiolectes ?
  3. ÉTUDES DE LA DIACHRONIE
      3.1. La courte durée
      3.2. Le moyen terme
      3.3. La longue durée
  4. PROBLÈMES MÉTHODOLOGIQUES
      4.1. Des corpus " petits " et peu annotés
      4.2. Vérifier et préciser les évolutions
      4.3. Acceptabilité et fréquence
      4.4. Affiner les explications

CHAPITRE VI. D'UNE LANGUE À L'AUTRE : LES CORPUS ALIGNÉS version PDF
1. DÉFINITION ET EXEMPLES
2. UTILISATION DES TEXTES ALIGNÉS
3. MÉTHODES D'ALIGNEMENT
4. PROBLÈMES ET ENJEUX

METHODES ET TECHNIQUES

CHAPITRE VII. CONSTITUER UN CORPUS version PDF
  1. DÉFINITIONS ET TYPOLOGIE DES CORPUS
  2. LANGUE GÉNÉRALE
      2.1. Etudier une dimension particulière
      2.2. Constituer un corpus de référence
      2.3. Peut-on constituer des échantillons représentatifs ?
  3. LANGUES DE SPÉCIALITÉ ET SOUS-LANGAGES
      3.1. Les hypothèses de Z. Harris
      3.2. Analyses de sous-langages
      3.3. Evaluation et perspectives
  4. ARTICULER TYPOLOGIE INTERNE ET TYPOLOGIE EXTERNE
      4.1. Typologie des textes, genres et registres
      4.2. Typologie des paramètres situationnels
  5. NORMALISER UN CORPUS
      5.1. Représentations logiques : SGML
      5.2. Les types de textes : TEI
  6. DOCUMENTER UN CORPUS
      6.1. Origine et histoire du corpus
      6.2. Jurisprudence d'annotation
  7. CONTRAINTES ET CONDITIONS INSTITUTIONNELLES
      7.1. Assises institutionnelles
      7.2. Problèmes juridiques

CHAPITRE VIII. ANNOTER UN CORPUS version PDF
  1. NETTOYAGE ET HOMOGÉNÉISATION
  2. SEGMENTATION
      2.1. Repérer les unités
      2.2. Techniques
      2.3. Difficultés
  3. ÉTIQUETAGE MORPHO-SYNTAXIQUE
      3.1. Taux d'ambiguïté
      3.2. Désambiguïsation par règles
      3.3. Désambiguïsation probabiliste
      3.4. Performances
      3.5. Post-traitement et coûts
      3.6. Evaluation et nouvelles tendances
  4. ANALYSE SYNTAXIQUE
      4.1. Structuration par règles
      4.2. Structuration probabiliste
      4.3. Performances et évaluation
      4.4. Post-traitement et coûts
      4.5. Coûts
      4.6. Difficultés
  5. ÉTIQUETAGE SÉMANTIQUE
      5.1. Construire des catégories sémantiques
      5.2. Projeter des catégories sur un corpus

CHAPITRE IX. QUANTIFIER LES FAITS LANGAGIERS version PDF
  1. POURQUOI QUANTIFIER ?
      1.1. Étudier la variation de traits linguistiques dans un corpus
      1.2. Réaliser des typologies de textes et de documents
      1.3. Déceler des corrélations entre phénomènes
  2. LES UNITÉS
      2.1. Normes de dépouillement
      2.2. Décomptes automatisés
      2.3. Incidence de la norme sur les décomptes
      2.4. Exemple : l'accroissement du vocabulaire
  3. MESURES DE RÉCURRENCE SUR L'AXE SYNTAGMATIQUE
      3.1. Séquences d'unités
      3.2. Quasi-segments
      3.3. Cooccurrences
      3.4. Filtrage des résultats
  4. COMPARER DES DÉCOMPTES AU SEIN D'UN CORPUS PARTITIONNÉ
      4.1. Organiser la partition du corpus
      4.2. Repérer les faits saillants
  5. APPROCHES MULTIDIMENSIONNELLES
      5.1. Classer les unités et les textes
      5.2. L'approche factorielle
  6. ARTICULER DES CONSTATS SUR DES UNITÉS DIFFÉRENTES
      6.1. Articuler unités isolées et séquences d'unités
      6.2. Articuler différents systèmes d'unités
  7. TEMPS LEXICAL
  8. CONCLUSION

CHAPITRE X. CONCLUSION version PDF
  1. BILAN
      1.1. Avancées
      1.2. Limites
      1.3. Questionnements
  2. PERSPECTIVES
      2.1. Menaces
      2.2. Espoirs
      2.3. Conditions

Annexes

Index version PDF
Bibliographie version PDF

Benoît Habert, Adeline Nazarenko, André Salem, 1997.