Comment analyser le signal vocal by HC120308215124

VIEWS: 9 PAGES: 14

									          Comment analyser le signal vocal.
          Séance 12, 1 heure
          Version : mercredi 5 mai 2004
          Auteur: Jean-Paul Stromboni

          Contenu de la séance :
          Le langage parlé est constitué de phonèmes
          Il y a des phonèmes voisés et des phonèmes non voisés,
          Les phonèmes voisés sont quasi-périodiques et leur
           spectre présente des résonances et des anti résonances
          L’analyse du signal vocal avec la FFT impose des durées
           allant de 10 à 30 milliseconde, ce qui limite la résolution
          La technique des fenêtres OLA permet d’enchainer les
           phonèmes et de créer l’intonation de la voix ou prosodie

          Références utilisées :
         1. Le traitement de la parole, M. Kunt, R. Boite, Presses
            Polytechniques Romandes, 1987
         2. Introduction au traitement automatique de la parole,
            Thierry Dutoit, Faculté Polytechnique de Mons, 2000
         3. http://tcts.fpms.ac.be/, en plus du cours précédent, ce site
            contient de nombreuses adresses utiles et intéressantes.




S.S.I., ESSI1, dimanche 9 mai 2004
                                                                   Page 1
        Le langage parlé se compose de phonèmes
       Pour lire à voix haute un texte ou une chaîne de
       caractères, un ordinateur devra enchaîner des
       phonèmes, et leur donner une intonation.
        la langue française contient 37 phonèmes, la langue
       anglaise plus de 40 phonèmes, …
        Avec l’alphabet phonétique SAMPA (utilisé par
       MBROLA), écrire le mot ‘bonjour’ phonétiquement :


        SAMPA        EXAMPLES                   SAMPA   EXAMPLES
        i            idiot, ami
        e            ému, été                   H       huile, nuage
        E            perdu, maison              p       patte, repas, cap
        a            alarme, patte              t       tête, net
        A            bâton, patte               k       carte, écaille, bec
        O            obstacle, corps            b       bête, habile, robe
        o            auditeur, beau             d       dire, rondeur, chaud
        u            coupable, loup             g       gauche, égal, bague
        y            punir, élu                 f       feu, affiche, chef
        2            creuser, deux              s       soeur, assez, passe
        9            malheureux, peur           S       chanter, machine, poche
        @            petite, fortement          v       vent, inventer, rêve
        e~           peinture, matin            z       zéro, raisonner, rose
        a~           vantardise, temps          Z       jardin, manger, piège
        o~           rondeur, bon               l       long, élire, bal
        9~           lundi, brun                R       rond, charriot, sentir
        j            piétiner, choyer           m       madame, aimer, pomme
        w            quoi, fouine               n       nous, punir, bonne
        H            huile, nuage               N       ping, pong
                                                _       (silence marker)
        Note: 'h' (halte,hop) is not defined.

S.S.I., ESSI1, dimanche 9 mai 2004                                       Page 2
       Dans le signal de parole, on différencie des
       phonèmes voisés et des phonèmes non voisés




           Les phonèmes voisés sont quasi périodiques, au
            contraire des phonèmes non voisés on trouve
            ces deux types dans le diagramme ci-dessus.
           En réalité, les phonèmes non voisés n’utilisent
            pas les cordes vocales, comme quand on siffle
            et qu’on utilise la bouche comme une cavité
            résonante :
                C’est le cas de certains phonèmes, ‘s’ et ‘f’ entre
                 autres,
                C’est aussi le cas quand on chuchote.



S.S.I., ESSI1, dimanche 9 mai 2004                             Page 3
         Le spectre d’un signal voisé présente des
         résonances et des antirésonances.




          quasi périodicité ou pitch de période P (seconde)
           et de fréquence F0=1/P (Hz)
          durée d’analyse limitée à 10ms à 30 ms (le
           spectre du signal vocal est non stationnaire)
          formants F0, F1, F2 et éventuellement F3.
          spectre constitué d’harmoniques de F0 = 1/P
           modulés par les résonances et les anti
           résonances de l’appareil phonatoire

S.S.I., ESSI1, dimanche 9 mai 2004                      Page 4
        La position relative des formants est un
        moyen de différencier les phonèmes voisés




S.S.I., ESSI1, dimanche 9 mai 2004            Page 5
          On peut distinguer phonèmes voisés et
          phonèmes non voisés avec le spectre




            Pourquoi utiliser un filtre préaccentuateur ?
S.S.I., ESSI1, dimanche 9 mai 2004                          Page 6
      Pour analyser un signal vocal avec la FFT,
      il faut respecter un ensemble de contraintes
   Le spectre est
    périodique, de
    période fe
   On découpe
    une fenêtre
    d’analyse de
    durée D=N/fe
    ou de N points
   Le nombre de
    points N limite
    la résolution
    fe/N de la FFT
    (largeur des lo-
    bes de la FFT)
   Exemple: pour
    10ms de signal
    vocal et pour
    fe=8kHz, on a
    N=80 et
    fe/N=100Hz
   Spectre à bande
    étroite : pour
    D=30ms, la
    résolution
    devient 33,3Hz




S.S.I., ESSI1, dimanche 9 mai 2004               Page 7
          Lire une phrase, c’est (1) enchaîner des
          phonèmes et (2) y ajouter une intonation
           Pour lire à voix haute un texte écrit, il ne suffit
            pas de le traduire en phonèmes et de synthétiser
            les sons associés aux phonèmes, il faut en plus :
               enchaîner les phonèmes de manière fluide
               y ajouter une intonation, ou prosodie pour
                 éviter la ‘voix du robot’.
           Enchaîner les phonèmes à la manière fluide
            d’un locuteur humain est un problème trop
            difficile, on enregistre plutôt des diphones :
               un diphone est la liaison de deux phonè-
                 mes voisins ; par exemple, voici les cinq
                 diphones du mot ‘salut’ :
                   _s + sa + al + lu + u_ ( _ est le silence)
               mais le nombre de diphones possibles avec
                 38 phonèmes est 382 (plus important).
           Créer la prosodie, c’est moduler le pitch P au
            cours du temps, selon la ponctuation par
            exemple,
               en augmentant F0 pour une interrogation
                 ou une virgule (la voix devient plus aigüe)
               en diminuant F0 pour un point final (c’est-
                 à-dire que la voix devient plus grave).



S.S.I., ESSI1, dimanche 9 mai 2004                         Page 8
   La technique des fenêtres OLA permet à la fois
   d’enchaîner les phonèmes et de créer la prosodie
      OLA (pour OverLap and Add) est utilisée entre autres
       dans MBROLA.
      on enregistre un locuteur (homme, femme, français,
       anglais, …) dont on isole les diphones.
      on découpe les diphones au moyen de fenêtres de durée
       2*P entrelacées (voir ci-dessous),
      on constitue ensuite les sons par addition de ces fenêtres
       entrelacées pour obtenir la fusion des diphones
      en faisant varier l’intervalle de temps entre les fenêtres,
       on fait varier P et on crée facilement la prosodie




S.S.I., ESSI1, dimanche 9 mai 2004                             Page 9
          Voici comment MBROLA code la
          prosodie




         La syntaxe d’une ligne suit le schéma suivant
         phonème durée [%durée F0] n fois
         Les variations de la fréquence F0=1/P où P est le pitch
         sont linéaires. Ainsi :
         u 96 29 123 81 128
         spécifie une durée de 96 ms, et
         à 29% de la durée, on a F0=123Hz,
         à 81% de la durée, on aura F0 = 128Hz
         F0 ( Hz )
        133
        128
        123
        120
        118
                                                          t (ms)
            0 74     99     73       96   84   100
S.S.I., ESSI1, dimanche 9 mai 2004                           Page 10
      Le fonctionnement de l’appareil phonatoire
      explique les caractéristiques du signal vocal




        Les observations précédentes conduisent à modé-
        liser la phonation par le filtre 1/A(z) ci-dessous
        dont l’entrée est soit :
        1. une suite d’impulsions périodiques (cas voisé)
        2. un bruit blanc (cas non voisé)




S.S.I., ESSI1, dimanche 9 mai 2004                      Page 11
      La fréquence d’échantillonnage fe doit être
      choisie en fonction de l’appareil auditif




     Définition du son en
      décibel, on convient que
      le 0dB est le seuil
      d’audition 10-12 W/m2
     Quelles sont les limites
      de l’audition ?

     Quelle est la zone de
      fréquence la plus
      audible ?

     Quel est le seuil de dou-
      leur, volume sonore
      insupportable ?


S.S.I., ESSI1, dimanche 9 mai 2004             Page 12
          Étapes de conversion texte parole




S.S.I., ESSI1, dimanche 9 mai 2004            Page 13
          Loi de répartition du signal vocal




S.S.I., ESSI1, dimanche 9 mai 2004             Page 14

								
To top