Recueil des résumés des Jeudis du LIA 2005 by omq25257

VIEWS: 7 PAGES: 11

									                          Recueil des résumés
                          des "Jeudis du LIA"
                                  2005
Benoît Favre Réduction du temps d'écoute dans un moteur de recherche audio
Boris Bontoux Résolution heuristique du Problème de l'Acheteur Itinérant
Christophe Servan L'Evaluation MEDIA
Thierry Peyre Principe de communication sur lien sans-fil basé sur les ARQ et un FEC décalé
Benjamin Lecouteux Alignement de transcriptions imparfaites sur un flux de parole
Audrey Dupont Etude d’une métaheuristique hybride pour l’affectation de fréquences dans les réseaux
tactiques évolutifs
Tayeb Lemlouma Services d’adaptation et de négociation dans les environnements hétérogènes et
mobiles
Marc Padellini Codage de la parole par reconnaissance et synthèse vocale
Cédric Teyssié Modélisation de Réseaux à Qualité de Service avec UML
Frédéric Wagner Redistribution de données à travers un réseau à haut débit
Dominique Massonié Pré-soutenance de Thèse - Intégration des variantes de prononciation pour les
systèmes de transcription et dialogue Homme-machine
Christian Raymond Pré-soutenance de Thèse - Décodage conceptuel : co-articulation des processus de
transcription et compréhension dans les systèmes de dialogue
Dominique Massonié Soutenance de Thèse - Intégration des variantes de prononciation pour les
systèmes de transcription et dialogue Homme-machine
Ronaldo Messina Soutenance de Thèse - Acoustical Modeling for Speech Recognition: Long Units and
Multi-Modeling
David Janiszek Soutenance de Thèse - Adaptation Statique et Dynamique des Modèles de Langage
Christian Raymond Soutenance de Thèse - Décodage conceptuel : co-articulation des processus de
transcription et compréhension dans les systèmes de dialogue
Guy Lapalme Traduction de bulletins météo: une approche statistique
Eric Crestan Soutenance de Thèse - Prise en Compte de Niveaux Sémantiques pour la Détermination du
Sens



                                                  Benoît Favre (LIA - Thales Communications)


Titre: Réduction du temps d'écoute dans un moteur de recherche audio

Résumé: Les données audio sont intrinséquement liées au temps : il faudra toujours plus de temps pour
écouter des documents audio que pour parcourir des textes. Notamment, alors que des moteurs de
recherche comme google renvoient des milliers de résultats, un moteur portant sur des documents audio
contenant de la parole adoptant la même approche serait inutilisable. Nous décortiquons dans cet exposé
deux approches facilitant la localisation de l'information et réduisant ainsi le temps d'écoute : une
hiérachisation thématique des features (mots) et une présentation des résultats maximisant la converture et
minimisant la redondance grâce au résumé automatique.

                                                                                               15-09-2005
                                                                                                      [Top]




                                                     Boris Bontoux (LIA - Doctorant 1er année)


Titre: Résolution heuristique du Problème de l'Acheteur Itinérant

Résumé: Le Problème de l'Acheteur Itinérant (TPP, pour Traveling Purchaser Problem) est une
généralisation du Problème du Voyageur de Commerce introduite par Ramesh. Un voyageur doit visiter
des marchés afin d'acquérir divers produits. Chaque marché vend certains de ces produits à des prix qui
lui sont propres. Le TPP consiste à déterminer une tournée permettant d'acheter tous les produits désirés
en minimisant la somme des coûts de transports et des coûts d'achats. Nous proposons un algorithme
heuristique couplant un Algorithme de Colonies de Fourmis et des méthodes efficaces de recherche
locale. A notre connaissance, cette approche est originale pour le TPP, d'une part car aucun Algorithme
de Colonies de Fourmis n'a encore été appliqué à ce problème, d'autre part car nous introduisons une
nouvelle structure de voisinage pour la recherche locale. L'une des différences importante du TPP par
rapport au Problème du Voyageur de Commerce provient de la possibilité de ne pas visiter l'ensemble des
marchés. Le schéma général de l'Algorithme de Colonies de Fourmis est adapté en conséquence à partir
des schémas classiques proposés pour le Problème du Voyageur de Commerce. Mais cette particularité
est avant tout exploitée dans les procédures de recherche locale. Nous introduisons une nouvelle structure
de voisinage, baptisée dropstar, consistant à déduire d'une séquence de marchés visités la sous-séquence
optimale. Le voisinage correspondant est de très grande taille et est exploré à l'aide d'une modélisation
sous forme de problème de plus court chemin avec contraintes de ressources. Bien que ce problème soit
NP-difficile, il peut être résolu de manière efficace par la programmation dynamique, en mettant en
oeuvre des conditions de dominance suffisamment fortes. Notre algorithme est évalué sur 140 instances
tirées de la litérature (Riera-Ledesma et Salazar-Gonzalez), dont 89 solutions optimales sont connues.
Nous obtenons dans la plupart des cas la solution optimale lorsqu'elle est connue. Pour les 51 instances
pour lesquelles elle n'est pas connue, nous améliorons 22 fois la meilleure solution connue.

                                                                                                22-09-2005

                                                                                                      [Top]




                                              Christophe Servan (LIA - Doctorant 1ère année)


Titre: L'Evaluation MEDIA

Résumé: La campagne d’évaluation MEDIA a pour objectif d’évaluer des moteurs de dialogue. Le
Laboratoire d’Informatique d’Avignon (LIA) a décidé de participer à cette évaluation. Il s’agit d’utiliser
les travaux de recherche de l’équipe Dialogue du LIA et d’adapter les outils existant à la campagne
MEDIA. Le travail de recherche consiste à étudier les différents problèmes posés, analyser les résultats,
trouver de nouvelles méthodes permettant l’amélioration des résultats, et enfin de participer à la
campagne MEDIA.

                                                                                                22-09-2005

                                                                                                      [Top]
                                                      Thierry Peyre (LIA - Doctorant 1ère année)


Titre: Principe de communication sur lien sans-fil basé sur les ARQ et un FEC décalé

Résumé: Avec l’expansion des communications sans-fil, certains problèmes apparaissent, inhérents aux
protocoles de transport, particulièrement pour le TCP standard. Certaines améliorations sont requisent
pour atteindre des performances acceptables. Plusieurs articles fournissent des solutions basées sur des
mécanismes d’ARQ et de FEC. Dans cet article, nous étudions l’intéraction de ces deux mécanismes afin
d’améliorer les performances des communications radio (TCP, UDP). Ce travail va de pair avec ceux
visant à élaborer de nouveaux protocoles adaptés aux communications sans-fil et particulièrement pour
les applications multimédia (ARC, TCP Westwood, TCP Vegas). La solution proposée diminue la
quantité de paquets et de trames perdus, tout en conservant un RTT acceptable. Nos analyses montrent
que les améliorations obtenues sur le taux de perte et le RTT permettent d’atteindre des très hauts débits.

                                                                                                    29-09-2005

                                                                                                          [Top]




                                              Benjamin Lecouteux (LIA - Doctorant 1ère année)


Titre: Alignement de transcriptions imparfaites sur un flux de parole

Résumé: Dans de nombreuses situations, un texte descriptif peut être associé à un flux audio parlé : sous-
titres de films, scénario/texte et théâtre, résumés et émissions radiophoniques, transcription réarrangée
pour les débats politiques. Le texte correspond rarement à la transcription exacte de la parole : une pièce
de théâtre est jouée différemment à chaque représentation et un présentateur s'éloigne parfois de son
prompteur. Le but de ce travail est d'aligner un texte descriptif sur le flux parlé lorsqu'il lui correspond, et
de laisser la main au système de reconnaissance lorsque la transcription s'en éloigne. Les applications
visées sont multiples : permettre à des malentendants de suivre une pièce de théâtre en affichant le texte
de la pièce aligné avec la parole correspondante en respectant les variations, suivre un film dans une
langue en alignant au plus près les sous-titres avec une voix audio, suivre des débats, des réunions.

                                                                                                     6-10-2005

                                                                                                          [Top]




                                                                        Audrey Dupont (LIA - ATER)


Titre: Etude d’une métaheuristique hybride pour l’affectation de fréquences dans les
réseaux tactiques évolutifs

Résumé: Le développement des moyens de communications par voies hertziennes (radio, télévision,
téléphonie cellulaire, réseaux tactiques), nécessite de traiter de plus en plus de demandes sur une
ressource fréquentielle inextensible. Ainsi, l'apparition de nouveaux besoins et de nouveaux objectifs pour
gérer de façon optimale le partage de cette ressource, ont conduit à définir plusieurs modélisations du
problème d'affectation de fréquences (FAP pour Frequency Assignment Problem). Après un tour
d'horizon de ce problème, cette thèse se concentre sur deux de ces modélisations. La première (FAPP) est
enrichie par la prise en compte de polarisations et d'une relaxation progressive des contraintes qui
contrôlent les interférences. La deuxième (FAPD) modélise le déploiement dynamique d'un réseau, en
trois phases successives : mise en place du noyau initial, déploiement liaison par liaison, et
éventuellement des réparations, si aucune fréquence n'est disponible pour la nouvelle liaison. Chacune de
ces modélisations nécessite de trouver des méthodes de résolution efficaces et robustes. Ainsi, parmi le
large panel disponible, nous nous sommes intéressés à la méthode de recherche locale sur un voisinage
consistant CN-Tabu qui hybride la métaheuristique Tabu Search avec de la programmation par
contraintes. Elle explore un sous-ensemble de l'espace de recherche constitué uniquement de
configurations partielles et consistantes. Son efficacité et sa facilité d'adaptation aux différents problèmes,
nous a conforté dans l'idée de l'utiliser pour la résolution de nos problèmes. Nous verrons ainsi comment
elle s'intègre parfaitement dans un processus de résolution plus général, en coopérant aisément avec
d'autres méthodes plus classiques : combinée à un filtrage arc-consitant pour résoudre le FAPP, ou encore
à des algorithmes glouton, et un Branch&Bound ou un Russian Doll Search pour la résolution du FAPD.

                                                                                                  13-10-2005

                                                                                                         [Top]




                                                                     Tayeb Lemlouma (LIA - ATER)


Titre: Services d’adaptation et de négociation dans les environnements hétérogènes et
mobiles

Résumé: Avec l’émergence de l’utilisation des appareils mobiles dans les systèmes multimédias et la
croissance de l’hétérogénéité des terminaux et des réseaux, le développement des systèmes adaptatifs
devient nécessaire. De tels systèmes visent à adapter le contenu et les services aux différentes contraintes
d’un contexte cible. Ces contraintes peuvent être de nature matérielle ou logicielles comme elles peuvent
concerner les préférences de l’utilisateur. L’objectif est de garantir l’accès et la présentation des contenus
multimédias -initialement crée pour des plateformes évoluées- dans le contexte des appareils à capacités
réduites tel que les assistants personnels et les téléphones mobiles. Dans cet exposé, nous présentons nos
réponses à ces problèmes. Les résultats sont le fruit des travaux de recherche (thèse et post-doctorat)
menés au sein des groupes Opéra et WAM (INRIA Rhône Alpes) ainsi que dans le groupe de
standardisation Device Independence du W3C. Le travail comporte la conception et la mise en œuvre de
l’architecture d’adaptation et de négociation NAC (Negotiation and Adaptation Core), la proposition d’un
nouveau protocole de négociation et d’un modèle de description de contexte basé sur les technologies
XML (CC/PP et RDF) ainsi que d’un ensemble de techniques d’adaptation et de transformation pour les
terminaux mobiles.

                                                                                                  20-10-2005

                                                                                                         [Top]




                                                         Marc Padellini (Thales Communications)


Titre: Codage de la parole par reconnaissance et synthèse vocale

Résumé: En règle générale, les schémas de codage de la parole utilisent des modèles statistiques
appliqués sur l'évolution à court terme du signal. Ceci permet de réduire le débit typique d'un signal de
parole de 128 kbit/s à 600 bit/s. Ces codeurs sont largement employés dans les liaisons téléphoniques
sécurisées, les communications radios HF ou encore la téléphonie cellulaire et le stockage audio.
Cependant en dessous de 1200 bit/s la qualité de restitution se dégrade de manière significative à cause
d'une modélisation trop grossière du signal. Il est alors nécessaire de modéliser la parole à plus long
terme, sur plusieurs trames, afin de se rapprocher du mode de production phonétique de la parole. Cet
exposé présente un système de codage unifiant des techniques de reconnaissance et de synthèse vocale.
Ce schéma combine d'une part, dans l'encodeur, une approche de reconnaissance d'unités élémentaires de
parole à l'aide de modèles de Markov cachés. Le décodeur intègre d'autre part, une approche de synthèse
par concaténation d'unités acoustiques. L'originalité de l'approche réside dans l'utilisation d'unités
déterminées de manière entièrement automatique, sans l'aide de transcriptions phonétiques. L'exposé
présentera le système VLBR, affichant un débit de 500 bit/s et les contraintes liées à une utilisation du
système dans des conditions réelles d'utilisation. Des solutions seront proposées, pour réduire les
contraintes introduites par un environnement bruyant, pour permettre un fonctionnement correct
indépendamment du locuteur, ainsi qu'un fonctionnement avec une taille de base de synthèse réduite.

                                                                                                 3-11-2005

                                                                                                      [Top]




                                                                       Cédric Teyssié (LIA - ATER)


Titre: Modélisation de Réseaux à Qualité de Service avec UML

Résumé: L'intégration croissante de nouveaux services dans tous les milieux (critiques, embarqués, etc.)
va de pair avec l'accroissement de leur complexité. Ceci s'accompagne de l’expression de besoins
qualitatifs envers les réseaux sous-jacents. Les applications ne se contentent plus de demander aux
réseaux de transporter leurs données mais exigent des garanties sur la Qualité de Service (QoS). Disposer
de réseaux performants ne garantit pas aux utilisateurs la qualité qu’ils attendent. C’est à ce paradigme
que la gestion de QoS tend à répondre mais cette notion reste relativement « floue ». Nos travaux se
placent dans le cadre de la modélisation orientée QoS des réseaux. Une de nos contributions concerne
ainsi la clarification de la notion de QoS et la proposition d’un langage de définition, de spécification de
propriétés, de contraintes et de contrats de QoS (QSL). La garantie des contraintes de QoS passe aussi par
leur intégration au plus tôt dans le développement des réseaux. Toutefois, la complexité des architectures
de réseaux et leur diversité rend très difficile cette intégration. La réduction de cette complexité de
modélisation des réseaux a guidé notre seconde contribution : la proposition d’une approche de
modélisation basée sur UML et orientée QoS. Cette approche a trois buts essentiels : la réduction de la
complexité de modélisation, l’intégration de la QoS dès la modélisation du système et l'aide à la
négociation de contrats de QoS entre entités. Le dernier objectif de nos travaux a porté sur la proposition
d’une architecture de validation des modèles produits par notre approche afin d’évaluer la QoS de bout en
bout du système et donc de vérifier si le système respecte les contraintes auxquelles il est soumis.

                                                                                                10-11-2005

                                                                                                      [Top]




                                                                   Frédéric Wagner (LIA - ATER)


Titre: Redistribution de données à travers un réseau à haut débit

Résumé: Le calcul distribué sur internet (appelé aussi méta-computing) est un domaine de l'informatique
qui regroupe à la fois le réseau et le calcul haute performance. Pour utiliser au mieux les ressources
distribuées (calculateurs parallèles, grappes d'ordinateurs, serveurs de calcul ou de données, ordinateur
personnel, dispositifs de visualisation, etc.) et plus généralement l'infrastructure numérique il est
nécessaire de mettre au point des environnements et des algorithmes qui gèrent celle-ci de manière
optimisée. Nous présenterons le problème qui survient lorsque des données doivent être rapidement
transférées d'un calculateur parallèle à un autre calculateur. C'est le cas lorsque le traitement fait
intervenir du couplage de code ou lorsque l'on veut visualiser des données calculées par une machine
parallèle. Ce problème appelé la redistribution de données est un problème très important quand les
critères de performances sont au premier plan. Pour être résolu, il nécessite surtout d'optimiser l'ordre
dans lequel les données sont transférées.

                                                                                                 17-11-2005

                                                                                                       [Top]




                                                            Dominique Massonié (Doctorant LIA)


Titre: Pré-soutenance de Thèse - Intégration des variantes de prononciation pour les
systèmes de transcription et dialogue Homme-machine

Résumé: La qualité des résultats obtenus par les systèmes de Reconnaissance Automatique de la Parole
(RAP) encourage leur intégration dans des applications de dialogue Homme-machine. Plusieurs points
sont importants pour la mise en oeuvre d'applications de dialogue. En particulier, le client doit avoir un
intérêt à utiliser le système, pour un faible coût, tout en générant du revenu pour le fournisseur. L'accès à
des annuaires téléphoniques de très grandes tailles (Assistance-Annuaire), auquel mon travail de thèse est
consacré, constitue l'application type répondant à ce modèle. Une des difficultés majeures de ce service se
situe au niveau de la variabilité de prononciation des noms (et prénoms) de l'annuaire. D'une part, le
système doit gérer de très longues listes de noms, qui induisent des problèmes de ressource et de
modélisation. D'autre part, l'utilisateur peut ne pas connaître précisément la prononciation ou
l'orthographe du nom recherché. La littérature est riche en travaux traitant des problèmes liés à la
modélisation des variantes de prononciation. La modélisation lexicale et son intégration aux systèmes de
RAP est rappelée en introduction de notre travail de thèse. Une première contribution porte sur
l'évaluation des hypothèses (de noms) générées par le moteur de reconnaissance. Le cas des noms propres
est un problème particulier que nous abordons de manière originale, à travers l'ajout d'une mesure de
confiance calculée sans utiliser de connaissance à priori. Cette mesure permet d'écarter les hypothèses
non valides et, surtout, d'optimiser la stratégie de décision du gestionnaire de dialogue. Les choix pour la
poursuite du dialogue sont en effet déterminés par les confiances attibuées aux différentes hypothèses. Ce
travail a été mené en collaboration avec France Télécom, dans le cadre du projet européen SMADA [1]
du programme IST [2,3]. Une seconde contribution présente une nouvelle méthode d'intégration au plus
tôt de l'information lexicale dans le processus de reconnaissance, par anticipation du modèle de langage,
particulièrement adaptée aux applications dites temps-réel. Les résultats obtenus ont été validés dans le
cadre de la campagne d'évaluation ESTER[4].
[1] SMADA -- Speech-driven Multimodal Automated Directory Assistance
[2] IST -- Information Society Technologies programme
[3] Les résultats présentés dans cette thèse ont été distingués comme technologie innovante par le service
de valorisation de la recherche européenne (CORDIS -- Community Research & Development
Information Service).
[4] ESTER -- Evaluation des Systèmes de Transcription enrichie d'Emissions Radiophoniques

                                                                                                 24-11-2005

                                                                                                       [Top]
                                                             Christian Raymond (LIA - Doctorant )


Titre: Pré-soutenance de Thèse - Décodage conceptuel : co-articulation des processus
de transcription et compréhension dans les systèmes de dialogue

Résumé: Les systèmes de dialogue oral homme-machine fournissent des services (consultation d’horaires
d’avions ou de trains, consultation de la météo, recherche de restaurants, ...) à des utilisateurs, tout en leur
offrant la possibilité de s’exprimer en langage naturel. Ces systèmes sont couplés avec une base de
données en relation avec le service fourni. La difficulté principale est de comprendre le sens des paroles
de l’utilisateur. Pour effectuer cette tâche, la plupart des systèmes de ce type font appel à un module de
reconnaissance de la parole permettant de transformer le signal vocal en version textuelle. Cette
transcription est ensuite analysée de manière à extraire les informations sémantiques indispensables au
système pour répondre aux attentes de l’utilisateur. Dans cette architecture s´equentielle de traitement des
tâches, la qualité de l’interprétation sémantique est très dépendante de la qualité du processus de
reconnaissance automatique de la parole. Ce module utilise généralement des informations acoustiques
pour convertir le signal en unités linguistiques de base (phonèmes, syllabes ou mots) et des informations
linguistiques à portée réduite (N-grammes). Le module de compréhension s’appuie sur des unités
sémantiques élémentaires, que l’on appelle concepts, qui sont ensuite composées pour obtenir une
représentation sémantique. Alternativement à l’approche séquentielle des deux processus de transcription
et compréhension, nous proposons un modèle basé sur le formalisme des transducteurs à états finis qui
met en relation les mots avec les concepts qu’ils représentent. Ce modèle permet d’enrichir un graphe de
mots avec des informations conceptuelles. En considérant une interprétation comme étant une séquence
de concepts avec leurs valeurs, le processus de décodage proposé permet de fournir une liste structurée
des N-meilleures hypothèses d’interprétation de l’énoncé. Cette liste permet d’obtenir en quelques
hypothèses, un résumé du graphe de mots, exhaustif et non-redondant du point de vue de la
compréhension. Afin de palier aux inévitables erreurs du processus de reconnaissance, nous présentons
ensuite des mesures de confiance utiles pour diagnostiquer la qualité d’une interprétation. Ces mesures de
confiance sont basées sur des connaissances acoustiques, linguistiques et sémantiques. Elles opèrent sur
différents niveaux : mot, concept, phrase, etc. Dans la dernière partie, nous proposons une stratégie d’aide
à la décision pour le gestionnaire de dialogue. Cette stratégie s’appuie sur des unités de décision prenant
en entrée la liste structurée des N-meilleures hypothèses d’interprétation ainsi que les mesures de
confiance présentées. En sortie, chaque hypothèse est associée avec un état de fiabilité. Selon l’état et ses
caractéristiques, des stratégies de correction d’erreurs adaptées sont proposées.

                                                                                                     1-12-2005

                                                                                                          [Top]




                                                            Dominique Massonié (LIA - Doctorant)


Titre: Soutenance de Thèse - Intégration des variantes de prononciation pour les
systèmes de transcription et dialogue Homme-machine

Résumé: La qualité des résultats obtenus par les systèmes de Reconnaissance Automatique de la Parole
(RAP) encourage leur intégration dans des applications de dialogue Homme-machine. Plusieurs points
sont importants pour la mise en oeuvre d'applications de dialogue. En particulier, le client doit avoir un
intérêt à utiliser le système, pour un faible coût, tout en générant du revenu pour le fournisseur. L'accès à
des annuaires téléphoniques de très grandes tailles (Assistance-Annuaire), auquel mon travail de thèse est
consacré, constitue l'application type répondant à ce modèle. Une des difficultés majeures de ce service se
situe au niveau de la variabilité de prononciation des noms (et prénoms) de l'annuaire. D'une part, le
système doit gérer de très longues listes de noms, qui induisent des problèmes de ressource et de
modélisation. D'autre part, l'utilisateur peut ne pas connaître précisément la prononciation ou
l'orthographe du nom recherché. La littérature est riche en travaux traitant des problèmes liés à la
modélisation des variantes de prononciation. La modélisation lexicale et son intégration aux systèmes de
RAP est rappelée en introduction de notre travail de thèse. Une première contribution porte sur
l'évaluation des hypothèses (de noms) générées par le moteur de reconnaissance. Le cas des noms propres
est un problème particulier que nous abordons de manière originale, à travers l'ajout d'une mesure de
confiance calculée sans utiliser de connaissance à priori. Cette mesure permet d'écarter les hypothèses
non valides et, surtout, d'optimiser la stratégie de décision du gestionnaire de dialogue. Les choix pour la
poursuite du dialogue sont en effet déterminés par les confiances attibuées aux différentes hypothèses. Ce
travail a été mené en collaboration avec France Télécom, dans le cadre du projet européen SMADA [1]
du programme IST [2,3]. Une seconde contribution présente une nouvelle méthode d'intégration au plus
tôt de l'information lexicale dans le processus de reconnaissance, par anticipation du modèle de langage,
particulièrement adaptée aux applications dites temps-réel. Les résultats obtenus ont été validés dans le
cadre de la campagne d'évaluation ESTER[4].
[1] SMADA -- Speech-driven Multimodal Automated Directory Assistance
[2] IST -- Information Society Technologies programme
[3] Les résultats présentés dans cette thèse ont été distingués comme technologie innovante par le service
de valorisation de la recherche européenne (CORDIS -- Community Research & Development
Information Service).
[4] ESTER -- Evaluation des Systèmes de Transcription enrichie d'Emissions Radiophoniques

                                                                                                5 -12-2005

                                                                                                      [Top]




                                Ronaldo Messina (LIA - France Télécom R&D - Doctorant)


Titre: Soutenance de Thèse - Acoustical Modeling for Speech Recognition: Long Units
and Multi-Modeling

Résumé: This thesis follows the current dominant paradigm in automatic speech recognition (ASR) that
is parametric statistical recognition of speech using Hidden Markov Models (HMMs). Under this
paradigm speech is considered to be a piecewise stationary process that can be well approximated by a
first-order Markov model. ASR systems using HMMs deliver high recognition performance in a
controlled environment, but there are many factors that limit their use such as: • Noise robustness:
Performance degrades when the signal-to-noise ratio (SNR) is significantly different from the one used
during parameter estimation (also called training); • Transmission channel : Although this item could be
placed under noise robustness or speech variability, we would like to emphasize that the channel also
plays a role in limiting performance. It is known that simply changing the microphone could lessen the
recognition performance; this happens all the time when the system deals with telephone-quality speech,
particularly when portable phones are employed. • Speech variability: Speech characteristics may change
up to an extent that makes recognition difficult for an automatic system; changes can be in speaking rate
(normal, slow, fast), in accent (regional or non-native), in mode (read, spontaneous, prepared); • Speaker
changes: ASR systems, most of time, need to be adapted to a particular speaker’s voice to attain high
performance.

                                                                                                5 -12-2005

                                                                                                      [Top]
                                                                    David Janiszek (LIA - Doctorant)


Titre: Soutenance de Thèse - Adaptation Statique et Dynamique des Modèles de
Langage

Résumé:

                                                                                                     6-12-2005

                                                                                                          [Top]




                                                              Christian Raymond (LIA - Doctorant)


Titre: Soutenance de Thèse - Décodage conceptuel : co-articulation des processus de
transcription et compréhension dans les systèmes de dialogue

Résumé: Les systèmes de dialogue oral homme-machine fournissent des services (consultation d’horaires
d’avions ou de trains, consultation de la météo, recherche de restaurants, ...) à des utilisateurs, tout en leur
offrant la possibilité de s’exprimer en langage naturel. Ces systèmes sont couplés avec une base de
données en relation avec le service fourni. La difficulté principale est de comprendre le sens des paroles
de l’utilisateur. Pour effectuer cette tâche, la plupart des systèmes de ce type font appel à un module de
reconnaissance de la parole permettant de transformer le signal vocal en version textuelle. Cette
transcription est ensuite analysée de manière à extraire les informations sémantiques indispensables au
système pour répondre aux attentes de l’utilisateur. Dans cette architecture s´equentielle de traitement des
tâches, la qualité de l’interprétation sémantique est très dépendante de la qualité du processus de
reconnaissance automatique de la parole. Ce module utilise généralement des informations acoustiques
pour convertir le signal en unités linguistiques de base (phonèmes, syllabes ou mots) et des informations
linguistiques à portée réduite (N-grammes). Le module de compréhension s’appuie sur des unités
sémantiques élémentaires, que l’on appelle concepts, qui sont ensuite composées pour obtenir une
représentation sémantique. Alternativement à l’approche séquentielle des deux processus de transcription
et compréhension, nous proposons un modèle basé sur le formalisme des transducteurs à états finis qui
met en relation les mots avec les concepts qu’ils représentent. Ce modèle permet d’enrichir un graphe de
mots avec des informations conceptuelles. En considérant une interprétation comme étant une séquence
de concepts avec leurs valeurs, le processus de décodage proposé permet de fournir une liste structurée
des N-meilleures hypothèses d’interprétation de l’énoncé. Cette liste permet d’obtenir en quelques
hypothèses, un résumé du graphe de mots, exhaustif et non-redondant du point de vue de la
compréhension. Afin de palier aux inévitables erreurs du processus de reconnaissance, nous présentons
ensuite des mesures de confiance utiles pour diagnostiquer la qualité d’une interprétation. Ces mesures de
confiance sont basées sur des connaissances acoustiques, linguistiques et sémantiques. Elles opèrent sur
différents niveaux : mot, concept, phrase, etc. Dans la dernière partie, nous proposons une stratégie d’aide
à la décision pour le gestionnaire de dialogue. Cette stratégie s’appuie sur des unités de décision prenant
en entrée la liste structurée des N-meilleures hypothèses d’interprétation ainsi que les mesures de
confiance présentées. En sortie, chaque hypothèse est associée avec un état de fiabilité. Selon l’état et ses
caractéristiques, des stratégies de correction d’erreurs adaptées sont proposées.

                                                                                                    8 -12-2005

                                                                                                          [Top]
                                                Guy Lapalme (RALI - Université de Montréal)


Titre: Traduction de bulletins météo: une approche statistique

Résumé:

                                                                                                9 -12-2005

                                                                                                      [Top]




                                                       Eric Crestan (LIA - Sinequa - Doctorant)


Titre: Soutenance de Thèse - Prise en Compte de Niveaux Sémantiques pour la
Détermination du Sens

Résumé: L’objectif de cette thèse est d’étudier à quel point la prise en compte de niveaux sémantiques
permet d’accroître les performances des outils traditionnels de recherche d’information. Dans le cadre de
l’évaluation des systèmes de désambiguïsation sémantique SENSEVAL-2 et 3, les expériences menées
montrent que l’emploi d’un niveau sémantique grossier permet d’accroître la précision pour la
désambiguïsation des sens fins. Les arbres de classification sémantique autorisent l’utilisation d’indices
multiples (lemmes, graphies, catégories grammaticales, classes sémantiques grossières, etc.), ainsi qu’une
interprétation facile des résultats. Les tailles de la fenêtre de contexte prise en compte lors de
l’apprentissage sont généralement fixées une fois pour toute. Nous montrons ici qu’il est possible de
déterminer la taille optimale de cette fenêtre de manière dynamique au moment du test. Sur une tâche de
désambiguïsation globale de document, l’approche fondée sur la levée de sens grossiers par des chaînes
de Markov permet un accroissement significatif des performances. Cependant, ces approches requièrent
une quantité importante de données d’apprentissage qui ne sont pas toujours disponibles, notamment en
français. Afin de ne pas avoir recours à des corpus annotés sémantiquement, une approche non supervisée
a été mise en place, basée sur un dictionnaire thématique existant. L’hypothèse de non ambiguïté des
cooccurrences de termes d’une même phrase, autorise l’inférence de vecteurs sémantiques dont les
composantes sont liées aux 800 dimensions de la ressource utilisée. Le recouvrement de la sémantique
des termes en contexte avec les cooccurrences, contribue à estimer les vecteurs. La désambiguïsation d’un
terme résulte en une combinaison des vecteurs de ses cooccurrences. La mise en concurrence de cette
approche par rapport à un baseline (méthode à la Lesk) montre un gain significatif de 9%. Par contre, les
expériences menées sur la campagne d’évaluation ad-hoc Amaryllis n’ont pas montré d’apport, lorsque la
désambiguïsation est faite sur les vecteurs sémantiques de documents. Toutefois, l’approche initiale,
consistant à combiner les scores de la recherche sémantique avec ceux de la recherche lexicale, est
meilleure qu’une recherche ne faisant pas intervenir la sémantique. L’utilisation du moteur de recherche «
sémantique » dans le cadre d’EQueR, l’évaluation des systèmes de questions-réponses en français,
s’avère être largement bénéfique. Les documents retournés en tête de liste ont plus de chances de contenir
une réponse correcte, ce qui augmente les chances de bien répondre aux questions posées. L’analyse fine
des questions autorise à la fois de poser des requêtes plus pertinentes et de générer des reformulations
(patrons d’extraction) susceptibles de coller au contexte des réponses. Toutefois, bien que le taux de
précision soit supérieur à 80%, la couverture de ces patrons n’est que de 36 questions sur les 464 traitées
(7,7%). L’utilisation des ressources linguistiques (synonymie, dérivation, hypéronymie et hyponymie)
dans le calcul de similarité entre questions et contextes des réponses ne permet pas un gain significatif de
la précision. Les expériences menées sur le nombre de documents retournés par le moteur de recherche,
ont montré que l’approche employée est optimale à 10 documents. Le moteur sémantique joue donc un
rôle important dans le processus de recherche des réponses, car plus le nombre de « documents pertinents
» est important en tête de liste, meilleure sera la précision du moteur de questions-réponses. L’emploi de
connaissances sémantiques est bénéfique à tous les niveaux, aussi bien dans un système de
désambiguïsation sémantique, que dans un moteur de questions-réponses. Le grand challenge pour
l’avenir reste néanmoins l’intégration directe de ces connaissances dans le moteur de recherche
(indexation par mots-sens).

                                                                                          15-12-2005

                                                                                                  [Top]

								
To top