Le traitement du signal vocal

Document Sample
Le traitement du signal vocal Powered By Docstoc
					Le traitement
du signal vocal




                  Pierre Combescure
                  Christel Sorin


                  Pierre Combescure, X71, ENST 76
                  est responsable des études de codage
                  de la parole au Centre Lannion A du CNET.
                  Il a notamment participé aux recherches
                  sur le codage de la parole pour le
                  téléphone cellulaire (GSM, Itineris) et
                  le visiophone numérique “Visages”.

                  Christel Sorin, ENST 73, est responsable
                  des recherches en analyse et synthèse
                  de la parole au Centre Lannion A
                  du CNET. Elle participe en outre à leur
                  valorisation scientifique et industrielle
                  et est “éditeur en chef” de la revue
                  “Speech Communication”.
                                 Le traitement du signal vocal




                                 Le traitement de la parole fait l’objet de       Le traitement
                                 recherches dans tous les laboratoires des
                                 grands opérateurs de télécommunications,
                                                                                  du signal à la prise et
                                 souvent depuis leurs premières années            la restitution du son
                                 d’existence. Les travaux se sont intensifiés
                                 avec l’apparition du traitement numérique
Le transport du signal vocal     du signal. Ce vaste domaine est classiquement    Présentation du domaine
constitue le premier métier      découpé en quatre grandes spécialités :          et des objectifs
                                    le traitement du signal à la prise et
de l’opérateur de                la restitution du son,                           Le développement récent de ce domaine
télécommunications. Les             le codage de la parole,                       au sein des télécommunications est lié
recherches portent sur toute        la synthèse de la parole,                     à l’émergence des nouveaux services
                                    la reconnaissance de la parole.               de communication de groupe (audio,
une panoplie de disciplines :                                                     visioconférence) et à l’apparition
prise et restitution des sons,   Si jusqu’à ces dernières années, seules
                                                                                  de la fonction “mains libres” dans les
                                 les techniques de codage de la parole
codage, compression,                                                              terminaux [1]. Les salles, à l’émission et
                                 ont été introduites à grande échelle
synthèse et reconnaissance                                                        à la réception, deviennent des maillons
                                 dans les réseaux, le développement actuel
                                                                                  à part entière de la chaîne de communication.
de la parole.                    de nouveaux services, tels les services
                                                                                  Ces maillons transforment le signal
                                 vocaux interactifs reposent sur
                                                                                  transmis et peuvent notamment le
                                 une utilisation grandissante des autres
                                                                                  détériorer fortement :
                                 technologies vocales, synthèse et
                                                                                     en plus du “son direct”, les microphones
                                 surtout reconnaissance, pour faciliter
                                                                                  installés dans la salle captent une
                                 le dialogue entre l’homme et la machine.
                                                                                  multitude de réflexions qui brouillent
                                 Le désir de libérer les mains lors des
                                                                                  le message transmis ;
                                 communications, la volonté de permettre
                                                                                     les bruits présents dans la salle sont
                                 les communications entre groupes,
                                                                                  considérablement amplifiés par rapport
                                 le souhait de pouvoir communiquer dans
                                                                                  à une prise de son rapprochée ;
                                 tous les environnements (véhicules en
                                                                                     enfin la qualité de la prise de son n’est
                                 particulier) rendent indispensables l’étude
                                                                                  pas seule en jeu, la restitution est
                                 et l’utilisation de techniques de traitement
                                                                                  également très importante. La mise en
                                 du signal à la prise et la restitution du son.
                                                                                  place d’une communication bidirectionnelle
                                 Pour chacun des grands secteurs seront           entre deux salles exige le contrôle
                                 abordés successivement :                         du bouclage acoustique (effet Larsen
                                    la présentation du domaine et de ses          et écho lié aux retards apportés à la
                                 objectifs,                                       transmission en particulier sur les liaisons
                                    les techniques de traitement du signal        longue distance et les satellites).
                                 utilisées et les travaux spécifiques.
                                                                                  Les études menées dans ce domaine
                                                                                  se trouvent naturellement au carrefour
                                                                                  de l’acoustique physique et du traitement
                                                                                  du signal, et seule la perception auditive
                                                                                  permet de décider si les modélisations
                                                                                  ou traitements effectués sont adéquats
                                                                                  ou non. En partant d’une qualité assez
                                                                                  limitée liée à la bande passante très
                                                                                  réduite du téléphone, il est envisageable,
                                                                                  grâce aux progrès rapides des technologies
                                                                                  de traitement numérique du signal



                                                                                  [1] A. Gilloire, J.-P. Jullien. : “L’acoustique des salles
                                                                                  dans les télécommunications”. L’écho des recherches,
                                                                                  1er trimestre 87, pp. 43-54.
en temps réel, d’utiliser ces techniques          Il est donc souhaitable, dans tous les cas,    Les travaux spécifiques dans ce domaine,
avec des bandes passantes beaucoup                de réduire le niveau de cet écho acoustique.   ont porté ces dernières années surtout
plus larges (la bande HI-FI à terme)              Un système d’annulation d’écho acoustique      sur les techniques permettant de diminuer
et donc une qualité se rapprochant de             assure les fonctions suivantes : il estime     la complexité des traitements mis en
plus en plus des communications directes          l’écho acoustique entre l’entrée (signal       œuvre par le traitement en sous-bandes
en face à face.                                   envoyé dans le haut-parleur) et la sortie      de fréquence [2], d’améliorer la vitesse
                                                  (signal microphonique) de la salle et          de convergence et de poursuite des
Techniques de traitement                          il retranche cette estimation du signal        variations du système par l’utilisation
du signal utilisées                               microphonique réalisant ainsi, dans un cas     des techniques de Moindres Carrés
                                                  idéal, l’annulation de l’écho sans affecter    Rapides [3] et sur l’étude de nouvelles
Annulation d’écho acoustique                      l’émission locale de parole. Formellement,     classes d’algorithmes ayant des
Le canal acoustique de bouclage                   l’annulation de cet écho acoustique est        propriétés prometteuses pour l’écho
représente la transformation du signal            un problème d’identification d’un système      acoustique. Ces travaux théoriques sont
diffusé par le haut-parleur et capté de           linéaire (le couplage acoustique) avec         en général poursuivis jusqu’à l’implantation
nouveau par les microphones du système            entrée connue (la parole qui provient          en temps réel sur microprocesseurs
de prise de son, principalement due               du locuteur distant) et bruit en sortie        de traitement du signal et parfois
aux réflexions multiples de la salle.             (la parole du locuteur situé dans la salle     la réalisation de circuits VLSI spécifiques
L’effet de ce bouclage est double :               où agit le couplage acoustique) (figure 1).    des algorithmes proposés (techniques
   d’une part, la jonction avec une autre         Le problème est compliqué par le fait          GMDF en particulier) [4].
salle qui possède son propre couplage             que les signaux de parole sont fortement       La déréverbération
acoustique constitue une boucle fermée.           non stationnaires et que le couplage
                                                                                                 Le phénomène de la réverbération est dû
Cette boucle est instable dès que son gain        acoustique varie dans le temps :
                                                                                                 à l’effet propre de la salle où se trouve la
est supérieur à 1 pour une fréquence              mouvement des personnes, déplacements
                                                                                                 source utile. Ce phénomène est très riche
quelconque et, dans ce cas, le système            d’objets, etc. L’aspect non stationnaire
                                                                                                 à cause du nombre et de la disposition
émet un fort sifflement (effet Larsen) qui        et la validité limitée de la connaissance
                                                                                                 irrégulière des réflexions des ondes
interdit la communication ;                       a priori d’une salle donnée conduisent
                                                                                                 acoustiques qui en sont à l’origine.
   d’autre part, lorsque la transmission          à l’utilisation de méthodes algorithmiques
                                                                                                 La réverbération est surtout sensible
introduit un retard important de l’ordre          adaptatives, la plus courante étant
                                                                                                 lors d’une prise de son à distance dans
de plusieurs dizaines de millisecondes            le gradient stochastique appliqué à un
                                                                                                 un local sans traitement acoustique. Elle
les personnes entendent ce qu’elles               filtre transverse représentant la réponse
                                                                                                 produit un effet subjectif d’éloignement
disent avec un écho dû aux bouclages              impulsionnelle du couplage acoustique.
                                                                                                 de la source et dégrade l’intelligibilité
acoustiques de la salle distante et ce
                                                                                                 de la parole transmise lorsqu’elle est
phénomène est rapidement très gênant,
                                                                                                 relativement importante.
empêchant également toute conversation.




                                                                                                 [2] A. Gilloire, M. Vetterli : “Adaptive filtering in
                                                                                                 sub-bands with application to Acoustic Echo
                                                                                                 Cancellation”. IEEE TRANS ASSP, mars 1989,
                                                                                                 pp. 45-70.
                                                                                                 [3] A. Benallal : “Etude des algorithmes des moindres
                                                                                                 carrés transversaux rapides et application
                                                                                                 à l’identification de réponses impulsionnelles
                                                                                                 acoustiques”. Thèse CNET/Université Rennes 1,
                                                                                                 janvier 1989.
                                                                                                 [4] B. Hidayat : “Traitements fréquentiels à la prise de
                                                                                                 son multimicrophones en vue de la déréverbération
                                                                                                 du signal de parole”. Thèse CNET/Université de
Figure 1 - Annuleur d’écho adaptatif à filtre transverse.                                        Rennes 1, janvier 1989.
La déréverbération consiste à débarrasser
le signal utile de tout ou partie de l’effet
de salle. Une déréverbération parfaite ne
laisserait subsister que l’onde provenant
directement de la source. Ceci n’est pas
forcément souhaitable : un effet de salle
modéré donne du naturel à la parole.
Une première approche du problème est
de tenter d’inverser le canal acoustique
englobant l’effet de salle. Cette approche
n’est pas réaliste car la réponse
en fréquence de la salle comporte de
nombreux zéros qui varient rapidement
avec la position dans la salle. Il faut
donc recourir à des méthodes indirectes        Figure 2 - Schéma de principe d’un déréverbérateur.
exploitant les aspects temporels et
spatiaux du phénomène.
Une méthode empirique a été proposée
ces dernières années [5]. Elle est fondée
sur une prise de son à deux microphones        Le débruitage                                   Les antennes acoustiques
et une analyse fréquentielle à court terme     Ce domaine a été exploré dans                   La prise de son en téléphonie est
(figure 2).                                    le contexte de la prise de son dans             classiquement réalisée par un microphone.
L’idée est d’exploiter la cohérence court      les mobiles. On distingue souvent               La généralisation de cette approche
terme (horizon 100 ms) existant dans           les systèmes monovoies et les systèmes          conduit à la notion d’antenne acoustique
certaines bandes de fréquences entre           multivoies. Les systèmes monomicrophone         pouvant comporter un nombre important
les deux ondes directes provenant de la        sont généralement dérivés du filtrage           de capteurs. L’utilisation d’antennes
source et arrivant sur chaque microphone.      optimal de Wiener ou de techniques              directionnelles adaptées permettrait de
Les ondes ayant subi des réflexions ont,       voisines dites de soustraction spectrale [6].   résoudre de façon élégante les problèmes
dans chaque bande de fréquences,               Le spectre à court terme du bruit est           de localisation et de contribuer
une cohérence à court terme beaucoup           mesuré pendant les pauses du locuteur           efficacement à l’élimination de l’écho,
plus faible, compte tenu des retards           et est utilisé pour corriger le spectre         de la réverbération et du bruit en captant
importants qu’elles ont subis et               de la parole bruitée. Ces systèmes ont          préférentiellement les ondes acoustiques
de l’évolution temporelle du spectre           toutefois des performances limitées             provenant directement de la source utile.
de parole. Leur contribution fréquentielle     lorsque le bruit est non stationnaire,
est donc éliminée. Si cette méthode            ce qui est souvent le cas. Les systèmes
permet effectivement une bonne                 multivoies exploitent la cohérence
déréverbération du signal de parole, sa        entre les signaux captés par plusieurs
mise en œuvre est cependant relativement       microphones. On observe en pratique
complexe et des bruits audibles dus            que la cohérence est assez forte pour
à l’analyse fréquentielle subsistent bien      la parole et très faible pour le bruit.
souvent.                                       Des systèmes à deux voies exploitant
                                               cette propriété ont été étudiées [7].
                                                                                               [5] O. Ait Amrane : “Identification des systèmes à
                                               Cependant tous ces systèmes ont encore
                                                                                               réponse impulsionnelle longue par filtrage adaptatif
                                               des efficacités faibles et la mise en œuvre     en fréquence : application à l’annulation d’écho
                                               de techniques plus puissantes [8] se            acoustique”. Thèse Télécom Paris 1993.
                                               heurte encore aux limites de la technologie     [6] J.S. Lim, A.V. Oppenheim : “Enhancement and
                                               pour les implantations en temps réel.           bandwith compression of noisy speech”, Proceedings
                                                                                               of the IEEE, Vol 67 n° 12, 1979.
                                                                                               [7] G. Faucon et al : “Study and comparison of
                                                                                               three structures for enhancement of noisy speech”.
                                                                                               ICASSP 89 Glasgow.
                                                                                               [8] M. Xu, Y. Grenier : “Débruitage par antenne
                                                                                               acoustique”. Actes 12e GRETSI, Juan-Les-Pins,
                                                                                               juin 1989.
Le traitement adaptatif d’antennes apparaît     Implantation des algorithmes                    Le codage numérique
approprié pour résoudre les problèmes           en temps réel
de prise de son dans un environnement
                                                                                                de la parole
                                                En dépit des progrès rapides des
évolutif. Toutefois, en acoustique des          technologies numériques, l’intégration
salles, ce traitement se pose en termes         des techniques de traitement du signal          Présentation du domaine
différents de ceux rencontrés classique-        dans les terminaux et systèmes
ment dans les radars ou sonars. On est                                                          et des objectifs
                                                de télécommunications impose encore
ici en bande large (le spectre de parole        deux contraintes fortes lors de la définition   La parole représente encore la majeure
couvre plusieurs octaves) et souvent en         des algorithmes. En premier lieu, le            partie du trafic écoulé par les réseaux
champ proche. Ces particularités amènent        traitement de la parole en communication        de télécommunications. La numérisation
à envisager des traitements complexes,          doit s’effectuer en “temps réel”,               du réseau, tout d’abord introduite dans
tels les filtrages multivoies, fondés sur       c’est-à-dire que les calculs algorithmiques     les commutateurs, a ensuite gagné tout
des critères d’optimisation modifiés [9].       doivent être terminés dans des temps très       le réseau de transport et atteint aujourd’hui
Actuellement les recherches en sont             courts, compatibles avec la fréquence           le dernier maillon de la chaîne, le réseau
encore aux stades algorithmiques et seules      d’échantillonnage du signal (125 µs pour        local, avec le développement de Numéris
des réalisations simples ont vu le jour         une fréquence de 8 kHz par exemple).            et des systèmes mobiles numériques
sous forme d’antennes géométriquement           Cette limitation impose souvent l’étude et      (GSM, Bi-bop,...). Le codage numérique de
optimisées où le contrôle de la directivité     le développement de structures sous-            la parole est donc aujourd’hui présent sur
est réalisé sur toute la bande de               optimales et d’algorithmes simplifiés.          la plupart des chaînes de communications.
fréquence (figure 3) [10].                      Enfin l’arithmétique des circuits courants      Jusqu’au début des années 80, l’utilisation
Le traitement du signal dans cette              reste encore limitée en précision (virgule      du traitement du signal à grande échelle sur
réalisation se limite au filtrage en sous-      fixe sur 16 bits) et donc éloignée des          les réseaux s’est limitée à la quantification
bandes ayant une fonction de transfert          possibilités des simulations sur ordinateur     logarithmique du codage MIC à 64 kbit/s
plate et à phase linéaire permettant            (virgule flottante sur 32 bits). De nombreux    pour la parole de nature téléphonique.
d’éliminer les lobes superflus.                 travaux sont donc menés pour approcher          Depuis cette date, grâce aux progrès
                                                au mieux les calculs algorithmiques en          constants des technologies numériques
                                                virgule flottante par des calculs de            et en particulier des microprocesseurs
                                                précision limitée.                              de traitement du signal, les avancées
                                                                                                notables de ces dernières années ont été
                                                                                                le fruit de la conjonction d’études et
                                                                                                de progrès en traitement du signal, en
                                                                                                psychoacoustique et en perception
                                                                                                de la parole. Les algorithmes de codage
                                                                                                répondent à deux objectifs principaux :
                                                                                                   réduire le débit alloué à une voie tout
                                                                                                en conservant une qualité suffisante, soit
                                                                                                pour augmenter la capacité en voies
                                                                                                du canal (satellites, cables sous-marins,
                                                                                                liaisons longue distance), soit parce que
                                                                                                la capacité du canal est très réduite
                                                                                                (radiotéléphonie), soit pour des applications




                                                                                                [9] MM. Sondhi, Gwelko : “Adaptive optimization
                                                                                                of microphone arrays under a non linear constraint”,
                                                                                                ICASSP Tokyo 1986, pp. 981-984.
                                                                                                [10] R. Lebellac, A. Gilloire, J.-P. Jullien : “Antenne
                                                                                                acoustique optimisée géométriquement” 2nd French
                                                                                                Conference on Acoustics, Arcachon, April 1992 C1,
Figure 3 - Réalisation pratique d’une antenne acoustique.                                       pp. 391-394.
fondées sur la mémorisation de
séquences sonores où l’on cherche à
réduire la quantité de mémoire nécessaire
(messagerie vocale), soit enfin lorsque
le canal doit être partagé avec d’autres
médias (texte, image, données) ;
   améliorer la qualité du signal transmis
pour un débit qui reste raisonnable ;
moins directement rentable du point de
vue du réseau, cette approche conditionne
cependant le développement de nouveaux
services de télécommunications
                                                                                          Figure 4 - Schéma de principe
(téléconférence, audioconférence,                                                         d’un codeur MICDA.
vidéoconférence et, plus généralement,
services multimédias).

Techniques de traitement
du signal utilisées
Les techniques de traitement du signal
mises en œuvre se différencient suivant
la qualité de la parole transmise. Pour
une forte réduction de débit et une qualité
téléphonique standard, le codage fait
largement appel aux outils de modélisation
et aux techniques de quantification
associées aux méthodes d’analyse par
synthèse. Pour une amélioration de la
qualité, le codage a fait jusqu’à maintenant
surtout appel au filtrage adaptatif et à
la prédiction ainsi qu’à de nombreuses
techniques de transformée (bancs de
filtres, transformée en cosinus discrète
modifiée, etc.) associées aux méthodes
classiques de quantification adaptative.
                                                                                          Figure 5 - Schéma de principe
Techniques de réduction                        Techniques de réduction par 4              des techniques CELP.
par 2 du débit (32 kbit/s)                     du débit (16 kbit/s)
Les études dans ce domaine ont été             La volonté d’optimiser encore plus
initialisées pour répondre aux besoins         fortement les canaux de transmission a
des transmissions “longue distance”.           encouragé la poursuite des recherches
L’algorithme MICDA [11, 12] finalement         sur des réductions de débit approchant
retenue pour la normalisation fait appel à     le facteur 4. A ce débit, les techniques
trois techniques classiques de traitement      temporelles étudiées précédemment ne       [11] W.R. Daumer, X. Maitre, P. Mermelstein,
du signal : la modélisation ARMA (prédiction   permettent pas de conserver la qualité     I. Tokizawa : ”Overwiew of the ADPCM coding
adaptative), le codage différentiel et         téléphonique. Les travaux de recherche     algorithm” GLOBECOM congress USA. Nov 1984 -
la quantification adaptative (figure 4).       se sont alors orientés vers l’étude        pp. 774-777.
                                               de techniques hybrides associant une       [12] A. Le Guyader, A. Gilloire : “Codage différentiel
Aujourd’hui ces techniques sont largement                                                 de la parole : algorithmes de prédiction adaptative et
utilisées dans le réseau : multiplexeurs       modélisation poussée du signal de parole
                                                                                          performances”. Annales des Télécommunications
voix/données, systèmes mobiles Bi-bop,         aux techniques d’analyse par synthèse      Tome 38 (9-10) FR (sept-oct 1983), pp. 381-398.
messageries et serveurs vocaux, serveurs       et de codage excité par codes (figure 5)   [13] M.R. Shroeder, ATAL (B.S) : “Coded excited
multimédias...                                 [13].                                      linear prediction CELP : high quality speech at very
                                                                                          low bit rates”. ICASSP 1985, pp. 937-940.
                                              Figure 6 - Schéma de principe d’un codeur/décodeur RPE-LTP.



L’algorithme LD-CELP [14], retenu             Les techniques étudiées associent la            haut parleur et pour des durées longues,
récemment comme norme, préserve               modélisation du conduit vocal par bloc          conditions habituelles lors des réunions
la qualité téléphonique standard tout en      à l’aide des techniques de prédiction           à distance. Le doublement de la bande
conservant un délai, dû au traitement, très   linéaire et la prédiction du fondamental        passante [50 - 7 000 kHz], appelée bande
faible ( ≤ 2 ms). Il faudra probablement      de la parole aux techniques d’analyse           élargie, s’accompagne, pour respecter le
attendre 4 à 5 ans avant une utilisation      par synthèse et de codage excité par            théorème d’échantillonnage de Shannon,
intensive de cette technique dans les         code.                                           d’un doublement du débit brut de la
réseaux mais le visiophone pourrait être      Différentes variantes de ces techniques         source. L’utilisation de techniques de
le premier utilisateur à grande échelle       ont été retenues comme normes régionales        réduction de débit (par un facteur voisin
de ce codage pour augmenter                   pour les systèmes mobiles [15, 16, 17,          de 2) est donc nécessaire pour maintenir
corrélativement le débit alloué au            18] : le codage RPE-LTP (figure 6)              un débit en ligne proche de 64 kbit/s.
transport de l’image animée en conservant     à 13 kbit/s retenu par l’Europe, le codage
l’utilisation d’un seul accès de base         VSELP à 8 kbit/s aux USA et à 7 kbit/s au
Numéris.                                      Japon proposé par Motorola.
Techniques de forte réduction de              Les travaux algorithmiques sont désormais
débit : facteur 5 à 10 (6-13 kbit/s)          orientés soit vers la définition des systèmes
Les systèmes mobiles numériques,              mobiles de deuxième génération                  [14] J. Chen, R.V. Cox : “Robust low delay CELP
empruntant le canal hertzien toujours très    fournissant un débit moitié (3-6 kbit/s) par    speech coder at 16 kbit/s”. GLOBECOM 1989,
                                              rapport à la première génération, soit vers     pp. 1237-1241.
encombré, ont favorisé le développement
                                              la définition de systèmes se rapprochant        [15] K. Helwig, P. Vary, D. Massaloux, J.-P. Petit,
des recherches sur des taux de réduction                                                      C. Galand, M. Rosso : “Speech codec for the
encore plus élevés (facteur 5 à 10).          de la transparence téléphonique pour un         European mobile radio system”. GLOBECOM 1989,
De plus, le canal de transmission mobile      débit voisin de 8 kbit/s.                       pp. 1065-1069.
étant fortement perturbé, et donc les taux                                                    [16] A. Gershon : “Vector Sum Excited Linear
                                              Techniques pour le doublement                   Prediction VSELP Speech coding at 7-8 kbit/s”.
d’erreurs en ligne très élevés,
                                              de la bande audio transmise :                   ICASSP 1990, pp. 461-464.
des contraintes sévères sont imposés
                                              7 kHz dans 64, 56, 48 kbit/s                    [17] C. Lamblin : “Quantification vectorielle algébrique
au design des algorithmes, par exemple
                                              La qualité téléphonique standard est            sphérique par le réseau de Barnes-Wall : application
l’impossibilité d’utiliser des techniques                                                     au codage de la parole”. PhD Université de
puissantes de prédiction adaptative.          principalement limitée par l’étroitesse         Sherbrooke, Canada, 1988.
                                              de la largeur de bande du signal transmis       [18] A. Le Guyader, D. Massaloux, J.-P. Petit : “Robust
                                              [300 - 3 400 Hz]. Cette limitation se fait      and fast CELP coding of speech signals”. Proc of
                                              surtout sentir lors de conversations sur        ICASSP 1989, pp. 120-123.
                                                                                            Figure 7 - Schéma de principe
                                                                                            d’un codeur/décodeur SB/MICDA.




Les techniques utilisées pour la bande       Techniques pour la transmission                Conclusion
téléphonique standard ont dû cependant       de la bande audio complète :                   Les études de traitement de la parole
être adaptées pour tenir compte              15 à 20 kHz dans 64 kbit/s                     pour la prise, la restitution et le codage
de l’élargissement spectral du signal        Les signaux de parole naturels occupent        des signaux ont toujours fait largement
transmis et du niveau supérieur de qualité   une largeur de bande de 15 à 20 kHz.           appel aux avancées en théorie du
recherchée. L’algorithme SB/MICDA [19],      Pour tenter de se rapprocher d’une             traitement du signal. Les progrès rapides
finalement retenu pour la normalisation,     communication interpersonnelle directe,        de technologies de traitement numérique
associe les techniques de filtrages en       il est donc souhaitable de transmettre         et l’extension des réseaux numériques
sous-bandes (filtre miroir en quadrature)    l’ensemble de la bande audio. Toutefois,       ont entraîné une explosion des domaines
et le codage MICDA dans chacune              les algorithmes de codage audio [20]           applicatifs dans le secteur des télécom-
des bandes (figure 7) .                      actuellement normalisés pour la diffusion      munications. Pour les années futures,
Cette norme est le résultat d’un compromis   ou le stockage des signaux musicaux            les besoins des communications avec les
entre les solutions proposées par le CNET    s’accompagnent le plus souvent de temps        mobiles, la généralisation de nouveaux
et la NTT (Japon). Ces techniques sont       de traitement algorithmiques prohibitifs       services multimédias associant la parole,
actuellement utilisées par les services de   pour des conversations interpersonnelles.      les images et les données, l’augmentation
communications de groupe sur réseau          Une généralisation de l’algorithme             des débits disponibles liée à l’extension
numérique (audio, visioconférence) mais      SB/MICDA, normalisé pour le codage en          des réseaux ATM seront encore les
également par les radiodiffuseurs pour       bande élargie, a été étudiée avec succès       moteurs principaux du développement
le transport des voies commentaires          [21] permettant la définition d’un codage      des recherches en traitement du signal
(qualité 7 kHz) sur le réseau Numéris.       de la bande 15 kHz dans un débit de            de parole.
Les travaux algorithmiques actuels visent    128 kbit/s pour un retard largement
à ramener le débit nécessaire pour           inférieur à 10 ms (figure 8).
transmettre la bande élargie à des valeurs   Les études se poursuivent vers la définition   [19] M. Taka, P. Combescure, P. Mermelstein,
de 16 ou 24 kbit/s.                          d’algorithmes à faible retard (<= 10 ms)       F. Westall : “Overwiew of the 64 kbit/s (7 kHz) audio
                                                                                            coding algorithm”. Proc GLOBECOM 86, Houston TX,
                                             transmettant la bande 15 kHz dans              Dec 1986, pp. 593-598.
                                             un débit proche de 64 kbit/s. Dans cette       [20] Y.-F. Dehery, M. Lever, J.-B. Rault : “Une norme
                                             gamme de qualité et de débit, il est           de codage sonore de haute qualité pour la diffusion,
                                             nécessaire de coupler fortement                les télécommunications et les systèmes multimédias”.
                                             les techniques de traitement du signal         L’Echo des Recherches n° 151, 1er trimestre 1992,
                                             avec les modèles psychoacoustiques             pp. 17-28.
                                             de perception des signaux de parole et         [21] Y. Mahieux, J.-P. Petit, A. Charbonnier : “Codage
                                                                                            pour le transport du son haute qualité sur le réseau
                                             des bruits.                                    des télécommunications”. L’Echo des Recherches
                                                                                            n° 146, 4 e trimestre 1991, pp. 25-36.
Figure 8 - Schéma de principe d’un codeur/décodeur MICDA-4SB.




La synthèse                                    à base de clavier-écran (fonction de           Recherche et développement sont menés
                                               guidage, canal de communication                de front comme l’attestent les nombreuses
de la parole à partir                          supplémentaire) ou de réduire les charges      publications et transferts industriels, mais
du texte                                       (de temps et financières) associées aux        aussi la mise au point, en collaboration
                                               enregistrements lourds de messages             avec la CAMIF, du premier serveur vocal
                                               vocaux, jusqu’alors nécessaires dans           grand public avec synthèse de parole,
Présentation du domaine                        les services vocaux de diffusion [23].         TELIA (36 67 79 79), ouvert sur le
et des objectifs                                                                              kiosque téléphonique à Lille depuis août
                                               Bref historique
                                                                                              1992 : ce serveur remporte le Téléphone
                                               En 1982, un premier prototype d’un
Le CNET mène des études en synthèse                                                           d’Or de l’Innovation des 3e Rencontres
                                               système de synthèse à partir du texte,
de la parole à partir du texte quasiment                                                      Européennes de l’Audiotex en septembre
                                               SPARTE, est mis au point : il utilise
depuis sa création. Pendant une vingtaine                                                     1992. Fin 1992, l’extension à l’espagnol
                                               la technique de prédiction linéaire.
d’années, ces travaux sont restés au                                                          est entreprise et le maquettage de
                                               En 1986, la société ELAN réalise, sous
niveau d’études de laboratoire, reconnues                                                     nouveaux services grand public avec
                                               licence CNET, la carte de synthèse
et valorisées essentiellement au sein                                                         synthèse de parole (annuaire direct et
                                               TELEVOX qui reste le système
de la communauté scientifique nationale et                                                    inverse des services Audiotel) est lancé à
                                               de synthèse du français le plus répandu.
internationale : peu (ou pas) de produits                                                     la demande de la Direction Commerciale
                                               Une nouvelle technique de synthèse,
industriels, pas d’application sur le réseau                                                  de France Télécom.
                                               PSOLA, est ensuite mise au point, qui
téléphonique.
                                               fournit une qualité de voix nettement
Cette situation s’est notablement modifiée     améliorée (brevet CNET en 1988)
ces dernières années, corrélativement au       reconnue aujourd’hui comme une
développement intense de la télématique        référence au niveau international. En
vocale et à l’amélioration significative       1989, un premier service d’audiovidéotex,
de la qualité de synthèse : des produits       utilisant la synthèse CNET, est offert à
industriels, sous licence CNET, existent       tout utilisateur du Minitel (36 17 VOCALE :
et sont utilisés dans des services             télégrammes téléphonés). Parallèlement,
ouverts au grand public sur le réseau          les travaux en synthèse multilingue            [22] C. Sorin et al (1992) : “CNET Speech Recognition
téléphonique [22]. La synthèse à partir        (allemand, anglais, italien) se poursuivent,   and Text-to-Speech in Telecommunications
du texte permet en effet d’ouvrir de                                                          Applications”. IEEE-Workshop on Interactive Voice
                                               en partie en collaboration avec d’autres
                                                                                              Technology for Telecommunications Applications,
nouveaux services téléphoniques (accès         laboratoires européens.                        19-20 octobre 1992, Piscataway, New Jersey.
automatique par téléphone à tout type                                                         [23] C. Sorin (1991) : “Synthèse de la parole à partir
de données textuelles), d’améliorer la                                                        du texte : état des recherches et des applications”.
convivialité des interfaces homme-machine                                                     Journées GRECO/PRC, janvier 1991, Toulouse.
Les objectifs                                    ne relevant pas du traitement du signal :      représentant le conduit vocal, excité
Le développement de l’utilisation de la          la décomposition morphologique,                par une forme d’onde paramétrée
synthèse de la parole dans des services          la phonétisation et l’analyse syntaxique       représentant la vibration des cordes
requiert :                                       (nécessaire pour l’attribution de contours     vocales ou les turbulences de l’air dans
   d’améliorer encore le naturel de              prosodiques adéquats) sont effectuées          le conduit vocal. Les paramètres du filtre,
la parole de synthèse (fluidité, prosodie)       par règles et/ou traitements probabilistes     appelés formants, correspondent aux
dans le but de pouvoir rivaliser avec            utilisant des lexiques plus ou moins           maxima du spectre de parole. Le principe
de la parole codée,                              volumineux (terminaisons, morphèmes            de la synthèse par règles est de spécifier
   d’obtenir des performances identiques         ou expressions).                               un certain nombre de points d’ancrage
à celles d’un locuteur humain pour               La spécification des contours prosodiques      des paramètres dans les zones stables
la prononciation des noms propres,               (variations de la fréquence fondamentale       du signal de parole, puis de définir à l’aide
sigles, abbréviations etc.,                      et de la durée des sons en fonction            de règles d’interpolation des trajectoires
   de pouvoir produire rapidement divers         du contexte, localisation et durée des         réalistes des divers paramètres en tenant
types de voix de synthèse,                       pauses) est faite par une modélisation,        compte des phénomènes d’interaction
   de permettre d’adapter la prosodie            encore essentiellement manuelle, à             entre phonèmes successifs (coarticulation).
de la parole de synthèse aux divers              ce jour, basée sur l’analyse des contours      Ce type d’approche se heurte à plusieurs
contextes d’application,                         prosodiques réels d’un grand nombre            difficultés. D’une part, il est difficile
   de fournir des systèmes de synthèse           d’énoncés naturels (bases de données           d’acquérir de façon automatique les
multilingues,                                    prosodiques). Les travaux en cours visent      paramètres dont l’expert a besoin pour
   de préparer l’interface optimal               à extraire, le plus automatiquement            “comprendre” la façon dont est engendré
des modules de synthèse avec les                 possible, des formes prosodiques               le signal de parole, et la constitution
générateurs de textes ou de messages             primitives puis à en dériver les contours      des règles de synthèse est une tâche
qui seront utilisés dans les systèmes            prosodiques précis qu’il faut ensuite          de longue haleine. D’autre part, malgré
de dialogue homme-machine du futur.              associer aux caractéristiques syntaxiques,     de nombreux efforts en ce sens, aucun
                                                 sémantiques et pragmatiques des                modèle complètement paramétrique n’a
                                                 énoncés à synthétiser.                         permis d’obtenir à ce jour une voix dont
Techniques de traitement                                                                        le timbre soit réellement naturel.
                                                 L’extension à d’autres langues que le
de signal utilisées                              français [24], (requise impérativement         Synthèse par concaténation
et travaux spécifiques                           par les industriels) s’effectue en associant   d’unités acoustiques
                                                 des laboratoires ou collaborateurs             Dans cette approche, choisie par le CNET
Tout système de synthèse à partir                étrangers.                                     dès le début de ses études en synthèse
du texte comporte les deux étages                                                               de la parole (à l’époque du vocodeur
fonctionnels suivants :                          Le synthétiseur                                à canaux), l’effort d’élaboration des règles
   un étage de traitements linguistico-          Le synthétiseur est l’étage de traitement      est remplacé par le stockage d’un
prosodiques qui assure la transcription          de signal proprement dit. On distingue         répertoire de segments de parole
orthographique-phonétique du texte               deux grandes catégories de méthodes            élémentaires, appelés unités acoustiques,
et spécifie les contours prosodiques             pour réaliser la synthèse sonore à partir      extraits d’enregistrements d’un locuteur
(intonation, rythme) devant lui être affectés.   des informations phonético-prosodiques :       réel. L’opération de reconstruction du
Ces traitements sont spécifiques de              la synthèse par règles et la synthèse par      signal de parole consiste à “concaténer”
chaque langue,                                   concaténation d’unités acoustiques.            la séquence appropriée de ces unités
   un étage de reconstitution du signal                                                         acoustiques, et à modifier leurs
de parole : c’est le synthétiseur                Synthèse par règles                            caractéristiques prosodiques conformément
proprement dit. Suivant la technique utilisée,   Cette approche est fondée sur un modèle        aux “commandes prosodiques” fournies
ce synthétiseur est, ou non, dépendant           paramétrique du signal vocal et sur un         par l’étage des traitements linguistico-
de la langue à synthétiser.                      ensemble de règles gouvernant l’évolution      prosodiques. Le synthétiseur proprement
                                                 temporelle de ses paramètres.                  dit est donc totalement “transparent” à
Les traitements linguistico-                     Historiquement, cette technique a été          la langue à synthétiser.
prosodiques (multilingues)                       la première à émerger à la fin des années
L’étage des traitements linguistiques met        50. Dans le modèle “source-filtre”
essentiellement en œuvre des techniques          couramment utilisé, le signal vocal est
informatiques d’analyse automatique              considéré comme la sortie d’un filtre
                                                                                                [24] D. Bigorgne et al (1993) : “Multilingual PSOLA
des langues naturelles communes                                                                 text-to-speech system”. Proc. ICASSP’93,
au traitement de l’écrit et de l’oral et                                                        Minneapolis.
                                                                                                                            Figure 9 - Méthode
                                                                                                                            de synthèse PSOLA-TD.




Le précédent synthétiseur développé              fondamentale et la durée des sons              Cette méthode présente le double
au CNET (synthèse LPC par diphones,              en traitant directement la forme d’onde,       avantage de fournir une parole de synthèse
voir [25]) avait conservé une modélisation       non paramétrisée, du signal de parole :        au timbre très naturel et de présenter
complètement paramétrique de type                on superpose et additionne des blocs           une complexité calculatoire très réduite,
source-filtre, comportant un signal              de signal décalés dans le temps, selon         permettant l’implémentation du synthétiseur
d’excitation paramétrique (permettant            un décalage variable, synchrone des            sur un processeur standard.
donc l’application aisée des contours            périodes fondamentales (figure 9).             Les travaux en cours visent à améliorer
prosodiques requis par l’étage des               Dans une première étape, l’algorithme          encore la qualité de la synthèse de
traitements linguistiques) et un filtre          transforme le signal original en une suite     certains sons (fricatifs, par exemple)
de prédiction linéaire, équivalent au filtre     temporelle de signaux élémentaires,            en combinant les avantages de la
à formants utilisé dans l’approche               “fenêtrés” de courte durée (de l’ordre         méthode PSOLA et ceux des méthodes
par règles. Il fournissait une parole            de 20 ms) et synchrones de la fréquence        reposant sur une représentation
synthétique très intelligible mais               fondamentale (centrés sur des instants         paramétrique du signal de parole.
de sonorité artificielle, due en grande part     tm, appelés marques d’analyse) qui
à l’inadéquation de la modélisation, par         constituent les “grains de son” utilisés par
l’excitation LPC, de la véritable excitation     le processus de synthèse. La deuxième
acoustique des cordes vocales.                   étape consiste à produire, à partir du flux
Pour mieux conserver le naturel du timbre        des signaux élémentaires d’analyse, un
de la parole, une nouvelle méthode               flux de signaux élémentaires de synthèse
de synthèse a été mise au point au CNET          xq (n), synchronisés sur une nouvelle suite
                                                                                                [25] M. Stella (1984) : “Synthèse de parole”,
en 1988 qui s’affranchit d’une paramétrisation   d’instants tq, appelés marques de
                                                                                                Echo des Recherches, n° 115, pp. 21-32.
du signal de parole. Cette technique, dite       synthèse. La dernière étape consiste à         [26] PSOLA-TD : brevet français n° 88 11 517,
PSOLA (pour Pitch Synchronous Overlap            calculer le signal de synthèse x(n) par        septembre 1988 : “Procédé et dispositif de synthèse
and Add, voir [26] et [27], brevet CNET          simple superposition et addition               de la parole par addition/recouvrement de formes

en 1988) permet de modifier la fréquence         des signaux élémentaires de synthèse           d’ondes” (C. Hamon).
                                                 qui présentent un taux de recouvrement         [27] F. Charpentier, E. Moulines (1989) : “Pitch-
                                                 important de façon analogue aux signaux        synchronous waveform processing techniques for
                                                                                                text-to-speech synthesis using diphones”.
                                                 d’analyse.                                     Proc. Conf. EUROSPEECH’89, Paris.
Les répertoires d’unités acoustiques         La modification de voix                     La reconnaissance
En synthèse par concaténation d’unités
acoustiques, la qualité de la parole
                                             Le développement de l’utilisation de la     de la parole
                                             synthèse de la parole dans les services
synthétique dépend aussi crucialement        requiert de pouvoir produire rapidement
de la nature des segments de parole          divers types de voix de synthèse afin       Présentation du domaine
préstockés. L’utilisation de diphones        de “personnaliser” ces services.
(unités qui s’étendent de la zone stable                                                 et des objectifs
d’un phonème à la zone stable du phonème     Les travaux en cours visent donc :
                                                pour le court-terme, à mettre au point   Le CNET mène des études en
suivant) permet déjà d’éviter un grand                                                   reconnaissance également depuis
nombre de discontinuités spectrales          des techniques très fiables de
                                             segmentation automatique de ces unités      sa création. Comme pour la synthèse
aux points de concaténation. L’utilisation                                               de parole, les résultats de ces travaux
d’unités plus longues (polyphones)           afin d’éliminer la phase, longue,
                                             de segmentation “experte” manuelle [28]     sont longtemps restés au niveau
améliore encore la fluidité de la parole                                                 de démonstrations de laboratoire.
synthétique, en particulier dans les         et pouvoir donc construire rapidement
                                             de nouvelles voix basées sur                Là aussi, la situation s’est notablement
groupes de consonnes, très fortement                                                     modifiée au cours des dernières années,
coarticulés.                                 des enregistrements effectués par
                                             de nouveaux locuteurs ;                     corrélativement au développement intense
L’utilisation de la technique de synthèse       pour le moyen-terme, à fabriquer         de la télématique vocale et à l’amélioration
PSOLA requiert un marquage très précis       automatiquement de nouveaux timbres         significative des performances des
des périodes fondamentales (“pitch           de voix à partir d’une ou plusieurs voix    systèmes de reconnaissance de parole,
marks”) sur ces unités à concaténer.         données. Cette “transformation de voix”     en particulier à travers le réseau
La méthode de marquage automatique           requiert impérativement l’utilisation       téléphonique : des produits industriels,
développée au CNET utilise deux              de méthodes semi-paramétriques.             sous licence CNET, sont disponibles et
algorithmes complémentaires de détection     Les travaux correspondants sont menés       sont utilisés dans des services ouverts au
de la fréquence fondamentale (fonction       au sein d’un programme d’étude externe      grand public sur le réseau téléphonique
d’autocorrélation et spectre) et inclut      du CNET.                                    [29]. La reconnaissance de la parole
diverses procédures (lissage, choix de                                                   permet en effet d’améliorer notablement
l’emplacement optimal des marques sur                                                    la souplesse d’utilisation des services
le signal) qui la rende particulièrement                                                 vocaux téléphoniques (de diffusion,
robuste, précise et bien adaptée au                                                      consultation, transaction) en faisant
traitement PSOLA subséquent.                                                             disparaître les limitations imposées par le
Enfin, toutes ces unités (dépendantes                                                    clavier téléphonique comme seul organe
de la langue) doivent être segmentées                                                    de commande, et d’automatiser un grand
avec une grande précision : ceci est                                                     nombre de transactions requérant
réalisé actuellement manuellement par                                                    jusqu’alors l’intervention d’opérateurs
des experts phonéticiens. Cette opération,                                               humains (accueil automatique par
longue et fastidieuse (un répertoire                                                     exemple).
compte plusieurs milliers d’unités), doit
être automatisée afin de permettre
la création rapide de nouvelles voix.




                                                                                         [28] O. Boeffard et al (1993) : “Automatic
                                                                                         segmentation and quality evaluation of speech unit
                                                                                         inventories”. Proc. Conf. EUROSPEECH’93, Berlin.
                                                                                         [29] C. Sorin et al (1992) : “CNET Speech
                                                                                         Recognition and Text-to-Speech in Telecommunication
                                                                                         Applications”. IEEE-Workshop on Interactive Voice
                                                                                         Technology for Telecommunication Applications, USA.
Bref historique                                 Les objectifs                                 Techniques de traitement
Après avoir démontré, dès 1977,                 Le développement de l’utilisation             du signal utilisées et
le premier système français de dialogue         de la reconnaissance de la parole dans
vocal homme-machine en utilisant une            des services télécom requiert :               travaux spécifiques
technique “analytique” de reconnaissance           d’améliorer encore la robustesse           Un système de reconnaissance comporte
de parole (KEAL), le CNET oriente, à partir     de la reconnaissance vis à vis de             toujours deux parties. Un prétraitement
de 1986, toutes ses études vers la              l’environnement d’émission (bruit) ou         acoustique, inspiré par un modèle de
reconnaissance de parole téléphonique,          des perturbations liées à la transmission     production ou de perception de la parole,
indépendante du locuteur et essentiellement     (adaptation aux lignes),                      extrait à intervalles fixes (de 10 ms à
basée sur une modélisation statistique             d’améliorer le “confort d’usage”           20 ms) les paramètres les plus pertinents
de la parole. Le logiciel PHIL86 et             de ces systèmes en permettant à l’usager      du signal (débit d’environ 10 kbit/s).
une gamme de trois cartes conçues pour          de s’exprimer le plus librement possible      A partir de ces paramètres acoustiques,
le recevoir font l’objet de nombreux            (détection de mots clés au sein d’énoncés     les unités de base (allophones, syllabes,
transferts industriels à partir de 1987.        complets, augmentation de la taille           mots) sont identifiées et les mots ou
En 1987 également, un démonstrateur             du vocabulaire pouvant être reconnu),         séquences de mots reconstitués par
de serveur vocal à commande vocale,                de rendre cette technologie                concaténation de ces unités.
Mairievox, est réalisé au CNET et testé         indépendante de l’application (aujourd’hui,   Au niveau acoustique, tous les nouveaux
avec des utilisateurs naïfs. Il servira         une adaptation au vocabulaire, longue et      systèmes conçus au CNET depuis 1981
de “déclencheur” auprès des industriels.        coûteuse reste nécessaire : elle requiert     emploient l’analyse spectrale, séduisante
Une nouvelle génération de logiciels, PHIL90,   la constitution de “bases de données de       à plus d’un titre : les coefficients (MFCC :
est transférée à partir de 1991 : elle offre    parole” correspondant aux enregistrements     Mel Frequency Cepstral Coefficients) sont
une meilleure qualité de reconnaissance,        des mots devant être reconnus par             décorrélés et représentent une information
une robustesse accrue et la possibilité         plusieurs centaines de locuteurs) et          proche des formants...
de reconnaître des mots-clés dans               l’adapter à différentes langues,              On notera que les techniques de traitement
des phrases complètes (“word-spotting”).           d’améliorer la fiabilité de ces systèmes   de signal utilisées à ce jour en entrée des
Parallèlement, de nouvelles approches,          en les adaptant au mieux aux divers           systèmes de reconnaissance de parole
complémentaires, sont explorées                 contextes d’applications (passage d’un        restent donc des techniques “classiques”
(connexionisme). De nombreux thésards           mode de fonctionnement “indépendant           d’analyse du signal (analyse spectrale).
sont recrutés, plus d’un tiers sur contrats     du locuteur” à un mode “dépendant             Les tentatives d’utilisation d’analyses plus
CIFRE. Recherche et développement               du locuteur”, par exemple),                   sophistiquées (comme celles fournies
sont menés de front comme l’attestent              de préparer l’intégration optimale de      par des modèles du système auditif par
les nombreuses publications et transferts       modules de reconnaissance au sein des         exemple) se sont avérées relativement
industriels mais aussi le maquettage,           systèmes de “compréhension” qui seront        infructueuses à ce jour. Toutefois,
en interne CNET, de services vocaux             nécessaires dans les systèmes de dialogue     on ne doit pas exclure que l’amélioration
“vitrine”, à commande vocale, comme             homme-machine du futur.                       des étages postérieurs de modélisation
celui des Baladins (96 37 55 55) :                                                            (actuellement par HMM, voir ci-dessus)
ce serveur remportera le Téléphone d’Or                                                       puisse permettre, à l’avenir, de tirer
de l’Innovation des 2e Rencontres                                                             efficacement parti d’analyses plus
Européennes de l’Audiotex en 1991.                                                            approfondies du signal acoustique.
L’orientation européenne des travaux est
illustrée par la présentation, en septembre                                                   La technique de reconnaissance la plus
1992, d’un prototype de serveur à                                                             simple, développée au CNET dès 1974
commande vocale multilingue (anglais,                                                         (système Dynamo), mémorisait pour
allemand, français) développé en                                                              chaque mot une forme acoustique (suite
collaboration avec un industriel allemand.                                                    de vecteurs de coefficients acoustiques)
Des serveurs d’accueil automatique                                                            qui constituait un “prototype”. Tout mot
à commande vocale sont expérimentés                                                           inconnu était aligné temporellement sur
dans deux agences commerciales                                                                chacun des prototypes du vocabulaire
de France Télécom et le maquettage de                                                         par une technique sous-optimale, dérivée
plusieurs nouveaux services grand public
à commande vocale (services confort,
accueil à l’international) est lancé à
la demande de la Direction Commerciale
de France Telecom.
de la programmation dynamique, qui             Les avantages de la modélisation               La structure des modèles markoviens
assurait la distorsion spectrale minimale      statistique par rapport aux systèmes           a aussi été largement étudiée [33].
selon un critère de distance acoustique.       acoustiques sont nombreux :                    Elle a conduit au développement d’une
Le prototype le plus proche déterminait          relâchement de la contrainte de              modélisation contextuelle reposant sur
le mot reconnu. Cette technique éliminait      détection précise des frontières de mots ;     des unités allophoniques (phonèmes
en grande partie les variations temporelles      automatisation et optimalisation de la       en contexte, [34]) et d’une optimisation
et spectrales à l’intérieur des mots.          procédure d’apprentissage des modèles ;        dynamique des structures des modèles
Dès 1981, cette technique a été enrichie         faible complexité en phase de                (regroupement ou démultiplication
et étendue à la reconnaissance, en             reconnaissance ;                               de gaussiennes, [35]).
monolocuteur, de phrases contraintes             modélisation plus aisée de la                Toutes ces améliorations ont été intégrées
(100 mots enchaînés), puis à la                coarticulation entre mots.                     dans une nouvelle génération du logiciel,
reconnaissance, en multilocuteur, d’une        La qualité de la reconnaissance est            PHIL 90 qui offre une meilleure qualité
dizaine de mots isolés (système Séraphine      notablement améliorée : à titre d’exemple,     de reconnaissance, une meilleure
[30] implanté en 1984 sur une carte            pour la reconnaissance des nombres             robustesse et permet d’envisager à terme
à microprocesseurs commercialisée par          à deux et trois chiffres, cette modélisation   le traitement de vocabulaire plus
la société XCOM). Ces systèmes                 statistique fournit quatre à cinq fois moins   importants.
acoustiques fonctionnent correctement          d’erreurs en mode multilocuteur que            Par ailleurs, une autre approche, basée
dans les cas les plus simples : mots           le système antérieur basé sur                  sur une modélisation connexionniste
isolés, monolocuteur, milieu calme. Ils        la programmation dynamique.                    (réseaux neuronaux ou NN), est étudiée
souffrent néanmoins de faiblesses              Depuis 1986, de nombreuses améliorations       au CNET depuis 1990. Cette technique
lorsqu’on cherche à étendre leur domaine       ont été apportées à ce logiciel.               a donné rapidement des résultats
d’utilisation (problème de la coarticulation   Sur les aspects purement traitement            prometteurs, mais reste à ce jour encore
entre mots, multiplication des prototypes      de signal, on notera en particulier :          en deçà de l’approche markovienne pour
pour une reconnaissance multilocuteur,            l’intégration, dès 1989, d’un algorithme    les applications téléphoniques. Les études
adaptation des prototypes aux divers           efficace d’annulation d’écho [32] permet-      se poursuivent sur l’amélioration et
environnements, etc.).                         tant, dans un contexte d’utilisation pour      la comparaison de différents algorithmes
Depuis 1984, pour répondre prioritairement     des serveurs vocaux, de valider la             d’optimisation des paramètres
aux besoins des applications dans              reconnaissance pendant la diffusion            des modèles connexionnistes [36].
le domaine des télécommunications, le          de messages,
CNET s’est intéressé à la reconnaissance          au niveau des coefficients acoustiques,
indépendante du locuteur de petits             l’utilisation des dérivées premières et
vocabulaires (une centaine de mots),           secondes des MFCCs (réduction de 50 %
en mode mots isolés ou phrases                 et 60 %, respectivement des taux               [30] C. Gagnoulet et M. Couvrat (1982) : “A connected
                                                                                              word recognition system”. Proc. ICASSP’82, Paris,
contraintes. Un nouveau type de système        d’erreur).                                     pp. 887-890.
de reconnaissance a été conçu ; il est                                                        [31] D. Jouvet, J. Monne, D. Dubois (1986) : “A new
fondé sur la technique des modèles                                                            network-based speaker independent connected
de Markov cachés (HMM pour Hidden                                                             word recognition system”. Proc. ICASSP’86,
Markov Models), technique appliquée à                                                         pp.1109-1112.
la reconnaissance de parole dès 1975 et                                                       [32] J. Monne (1989) : “Test comparatifs entre
qui s’est généralisée depuis 1983.                                                            la carte Dialsys et les cartes Cosette + RDP 50”.
                                                                                              Note Technique CNET LAA/TSS/RCP/815.
Ce système, opérationnel dès 1986
                                                                                              [33] D. Jouvet (1988) : “Reconnaissance de mots
(Phil 86 [31]), s’est très vite avéré                                                         connectés indépendamment du locuteur par
notablement plus performant que le                                                            des méthodes statistiques”. Thèse de doctorat
précédent.                                                                                    ENST, Paris.
                                                                                              [34] K. Bartkova et D. Jouvet (1987) : “Speaker-
                                                                                              independent speech recognition using allophones”.
                                                                                              Proc. ICPhS, Vol 5, pp. 244-247.
                                                                                              [35] D. Jouvet, L. Mauuary, J. Monne (1991) :
                                                                                              “Automatic adjustments of the structure of Markov
                                                                                              models for speech recognition applications”.
                                                                                              Proc. EUROSPEECH’91, pp. 923-926.
                                                                                              [36] P. Haffner (1992) : “Connectionist word-level
                                                                                              classification in speech recognition”. Proc ICASSP’92,
                                                                                              pp. 621-624.
Pour améliorer la robustesse des              Pour rendre les systèmes indépendants
systèmes, des travaux sont en cours sur       de l’application (et donc s’affranchir
l’optimisation de la détection bruit/parole   des enregistrements préalables des
et l’adaptation aux lignes téléphoniques      vocabulaires), les travaux se poursuivent
(soustraction du bruit convolutif,            en ce qui concerne la modélisation
normalisation de l’énergie, soustraction      contextuelle des phonèmes (tentative
du spectre à long terme). Ces problèmes,      d’introduction d’informations phonétiques
responsables d’une part importante des        explicites, modélisation allophonique,
erreurs de “reconnaissance”, sont en effet    utilisation d’informations de durée...) et
encore loin d’être parfaitement résolus       ce, dans une optique multilingue.
à ce jour. La recherche et l’exploitation     Les études internes sont complétées
des N meilleures solutions est également      par un programme d’études externes
approfondie : des méthodes connexionistes     concernant des technologies
et statistiques sont étudiées et comparées    complémentaires de la reconnaissance
pour la sélection de la réponse parmi         de parole, potentiellement importantes
les N proposées [37].                         pour le développement des services
Pour accroître la souplesse des systèmes      vocaux : l’authentification vocale et
vis-à-vis des divers modes d’élocution des    l’identification de la langue de l’appelant.
utilisateurs, des techniques statistiques
et connexionnistes de modélisation de la
parole sont développées qui permettent
de rejeter les mots n’appartenant pas
au vocabulaire et de détecter un (ou
plusieurs) mot(s) clé(s) dans la réponse
de l’utilisateur. Une nouvelle version des
algorithmes a été mise au point qui
permet le traitement de plus grands
vocabulaires et la prise en compte de
grammaires hors contexte [38]. Enfin,
la reconnaissance d’épellations, tâche
réputée complexe, a été abordée
également par des méthodes statistiques
et connexionnistes. La recherche dans
une liste fermée de noms (liste des
épellations possibles) permet de
compenser les erreurs de reconnaissance
des lettres [39].




                                                                                             [37] M. Lokbani et D. Boiteau (1993) : “Application
                                                                                             de méthodes statistiques et connexionnistes au post-
                                                                                             traitement segmental des N meilleures solutions”.
                                                                                             Proc. 2e Journées Internationales sur l’Interface des
                                                                                             Mondes Réels et Virtuels.
                                                                                             [38] P. Dupont (1993) : “Dynamic use of syntactical
                                                                                             knowledge in continuous speech recognition”. Proc.
                                                                                             EUROSPEECH’93.
                                                                                             [39] D. Jouvet et al (1993) : “Speaker-independent
                                                                                             spelling recognition over the telephone”. Proc.
                                                                                             ICASSP’93.