Conventions de transcriptions by 1t0Zu8

VIEWS: 5 PAGES: 21

									CONVENTIONS DE TRANSCRIPTION
      ESLO 1 - ESLO 2
   La transcription est un processus compliqué, comme le
    remarquent (C. Blanche-Benveniste et C. Jeanjean, 1987) :


       « Transcrire de la langue parlée tient un peu du
        paradoxe : garder dans une représentation écrite
        certaines caractéristiques de l’"oralité" ; faire le
        "rendu" de la chose orale tout en restant dans des
        habitudes de lecture établies depuis longtemps pour la
        chose écrite… On va se trouver tiraillé entre deux
        exigences : la fidélité à la chose parlée et à la lisibilité
        de son rendu par écrit. »
o   « Fidélité » :

          Phénomènes liés à l’oralité
          Phénomènes liés à l’interaction


o   « Lisibilité » :

          Du corpus transcris
          Par des outils informatiques
PRINCIPES DE BASE
o   Transcription orthographique

o   Conventions particulières

      Phénomènes liés à l’oral

      Phénomènes liés à l’interaction
  OBJECTIFS
Prise en compte des phénomènes liés
à l’interaction

 Prise en compte des phénomènes
 liés à l’oralité des corpus

Permettre un traitement automatique
des données
      QUELQUES PROJETS
   VALIBEL : enquêtes sur l'accent, sur les représentations
    linguistiques, sur la liaison


   CORINTE : français parlé en interaction

   DELIC : description des structure morphosyntaxiques et
    lexicales en français, en synchronie comme en diachronie.


   CHAT : ensemble de normes de transcription
    spécialement construites pour l’étude des situations naturelles
    de dialogue.

Tableau de présentation
2 NIVEAUX DE TRANSCRIPTION
     Transcription zéro


     Transcription fine
            CONVENTIONS DE
              TRANSCRIPTION


   Un document « conventions de transcription ESLO
    1 – ESLO 2 » accompagnera les transcriptions.


        Propositions de conventions
      RÈGLES GÉNÉRALES DE SEGMENTATION
   Segmenter la parole de chaque locuteur
   Ne seront pas inclus les silences supérieurs à 650 ms dans
    une intervention locuteur. Au delà de 650ms, le silence est
    isolé dans un segment « Pas de locuteur ».
   Ne seront pas inclus les silences de plus de 200 ms au
    début d’un segment locuteur. Au delà de 200 ms, le silence
    est isolé dans un segment « Pas de locuteur » ou intégré au
    segment « pas de locuteur » précédent.
   Ne pas inclure de silence de plus de 200 ms en fin d’un
    segment locuteur. Au delà de 200 ms, le silence est isolé
    dans un segment « Pas de locuteur » ou intégré au segment
    « pas de locuteur » suivant.
          OUTILS DE TRANSCRIPTION
   TRANSCRIBER


       Logiciel d’annotation linguistique conçu pour la transcription
        lexicale des dialogues.

       Propose un ensemble de conventions pour structurer,
        annoter et transcrire des enregistrements de journaux radio-
        ou télédiffusés.

       Génère un format XML avec une grammaire (DTD) spécifique.


           Exemple de transcription
   ELAN :

         logiciel d’annotation linguistique

         autorise l’annotation de la vidéo

          plusieurs niveaux d’analyse possibles (nécessité de
          spécifier l’ancrage temporel pour chaque niveau)

         sortie XML (DTD spécifique).




          Exemple de transcription
   Le système CHILDES :


   projet de recherche de formats de transcription et d’annotation de l’oral
    composé de 3 outils :

           CHAT : (Codes for the Human Analysis of )

                  Format/principes de transcription et de codage

           CLAN

                  éditeur (traitement de texte)

                  permet la liaison des fichiers transcrits avec des fichiers son
                   ou vidéo numérisés

                  programmes de contrôle et d’analyse automatisée des corpus
                   ainsi obtenus
   Database (banque de données) :

       Collection de corpus enregistrés et transcrits de productions
        d’enfants…)




            Exemple de transcription
     TRAITEMENT AUTOMATIQUE DES
                            DONNÉES

   Reproduire certains phénomènes de l’oral comme les répétitions,
    les hésitations…vont poser le problème de l’utilisation d’ outils de
    TAL prévus à l’origine pour l’écrit

   Actuellement, aucun étiqueteur fait pour l’oral

   Importance de l’étiquetage lorsque veut faire des recherches sur
    des grands corpus

           par exemple rechercher toutes les formes d’un verbe
TESTS AVEC OUTILS FAITS POUR
          L’ÉCRIT
   CORDIAL ANALYSEUR
       Etiquetage morpho-syntaxique des textes en français

       Analyse statistique des caractéristiques stylistiques

       Aide à l'analyse terminologique et sémantique de corpus


        Tests d’étiquetage d’un fichier transcrit avec l’annotation des
        phénomènes linguistiques


         Résultat
   Bilan :

          Remaniement du fichier transcris avant étiquetage
                   Suppression des phénomènes liés à l’oral

                   Ponctuer la transcription



          Complémentarité avec d’autres outils
   COOLOX
       puissant outil de recherche et d’observation de
        phénomènes linguistiques dans les corpus écrits.

       phénomène linguistique décrit formellement par une
        méta-expression régulière

       méta-expressions régulières permet de définir la
        cible ou filtrer les contextes droit et gauche.


          Démo
   UNITEX
       Outil   qui   permet    d’écrire   des   patrons   linguistiques
        (expressions régulières, automates et transducteurs) qui sont
        localisés dans le texte d’entrée

       Pré-traitement du texte d’entrée :
           découpage en phrases
           assignement des parties du discours et traits flexionnels à
            chaque token (dico DELAS)


            Exemple : toutes les formes conjuguées de « être »
            Démo

								
To top