Prozódia a beszédben
Beszédfelismerés és szintézis
- előadás -
2007. március 19.
Bárdi Tamás
Pázmány Péter Katolikus Egyetem, Információs Technológia Kar
Péter Pázmány Catholic University, Department of Information Technology
A prozódia szó jelentése
Verstanban:
az időmértékes és ütemhangsúlyos verselés tudománya
Zenében:
a dallam és a szöveg illesztésének tudománya
A beszédfeldolgozásban:
a beszéd szupraszegmentális akusztikai jegyeivel foglalkozó
tudományág
szupraszegmentális: több szegmentumon (több fonémán)
átívelő jelenség
Péter Pázmány Catholic University, Department of Information Technology
Prozódikus vagy szupraszegmentális
jelenségek
Intonáció: Hanglejtés. Az alapfrekvencia (F0) változtatásaival
produkáljuk. A zöngétlen hangok nem játszanak
szerepet a beszéddallam alakításában.
Hangerő: Elsősorban a tüdőből kiáramló levegő mennyiségével
szabályozzuk. A hang intenzitásához kapcsolódik.
Ritmus: Időtartamok. Ide tartozik a beszéd sebesség, bizonyos
szótagok vagy fonémák nyújtása, és a szünet.
Hangszín: Érzékelhető kommunikációs szerepe van, de hogy
pontosan mi a hangszín, azt nehéz megfogalmazni, és
még nehezebb mérni. Spektrális tulajdonság.
Péter Pázmány Catholic University, Department of Information Technology
Megkülönböztetés prozódikus elemek
segítségével
Egyszerű példa:
jó
Jó?
Jó.
Összetett példa:
az nem fontos kivel köt a tulajdonos szerződést
Az nem fontos, kivel köt a tulajdonos szerződést.
Az nem fontos. Kivel köt a tulajdonos szerződést?
Péter Pázmány Catholic University, Department of Information Technology
A magyar nyelv prozódiája
Magyar Nyelvi Beszédtechnológiai Alapismeretek - demo
5.4 A magyar beszéd - Prozódia
Péter Pázmány Catholic University, Department of Information Technology
A prozódia és az írás
Írásban a prozódiát írásjelekkel, időnként tipográfiai eszközökkel
közelítjük. A kapcsolat azonban jóval kevésbé szoros vagy
definiált, mint a betűk és az elhangzó fonémák között.
Példák:
A bizottság elnöke Veres Lajos professzor lett.
A bizottság elnöke, Veres Lajos professzor lett.
Nem erre válaszoltam. Nem erre – válaszoltam.
Van még időd? Van még időd!
A tüntetések Bolognában illetve Rómában voltak.
A tüntetések Bolognában – illetve Rómában voltak.
Péter Pázmány Catholic University, Department of Information Technology
A beszéd agyi szerveződése
Aszimmetria:
A bal agyfélteke dominál a
beszédképzésben és
megértésben. A jobb agyfélteke
leginkább a beszéd zenei
jellemzőivel foglalkozik, vagyis
a prozódiával.
A beszéd jellemzően emberi
jelenség:
Az állatvilágban ismeretlen az
agyféltekék ilyen aszimmetrikus
szereposztása
Péter Pázmány Catholic University, Department of Information Technology
Nyelvfüggőség - nyelvfüggetlenség
A beszéd prozódikus jelenségei nyelvről nyelvre másképp
viselkednek, de vannak nyelvcsaládon belül, vagy néhány nyelvre
érvényes szabályszerűségek
Univerzális szabályszerűségek:
- Alapfrekvencia deklináció és terjedelem redukció
- Hangerő csökkenés
- Szavak csoportokba szervezése (frázis tagolás)
- Szillabifikáció (szótagok képződése)
A minden nyelvre érvényes szabályszerűségeket gyaníthatóan
biológiai okokból ered. De pl. a szillabifikációnál vitatott, hogy van-e
ilyen biológiai kényszer.
Péter Pázmány Catholic University, Department of Information Technology
Alapfrekvencia lejtési trend
és tartomány csökkenés
Biológiai okok: légzés, crico-thyroid rendszer mechanikája
Péter Pázmány Catholic University, Department of Information Technology
Fujisaki modell
Forced-dumped oscillations:
Péter Pázmány Catholic University, Department of Information Technology
Fujisaki modell 2
Péter Pázmány Catholic University, Department of Information Technology
Hangerő csökkenés
A légzésre visszavezethető.
Péter Pázmány Catholic University, Department of Information Technology
Hangerő - hangzósság
Azonos képzési erőhöz különböző mérhető hang intenzitás
tartozik a különböző fonémáknál.
Péter Pázmány Catholic University, Department of Information Technology
Hangerő megválasztása
A hangerő megválasztása elsősorban a fizikai és
pszichikai „távolsághoz” igazodik.
Sok ember jelenlétében ezzel fejezzük ki, hogy
mekkora körnek szól amit éppen mondunk.
A kisebb hangerő utal a tartalom bizalmasságára,
a nagyobb távolságtartást jelezhet.
Péter Pázmány Catholic University, Department of Information Technology
Szavak csoportokba szervezése
Nem tudni biztosan, van-e biológiai oka.
Péter Pázmány Catholic University, Department of Information Technology
Szavak csoportokba szervezése 2
Frázisok képzése:
A prozódiai frázist jellegzetes hanglejtés minták zárják le,
gyakran szünettel kiegészítve.
Jellemzően emelkedő dallam zárja a nem mondatvégi
frázisokat, jelezve hogy még folyt. köv.
Prozódiai mondat:
Tipikusan levegővételtől levegővételig tart.
Általában eső alapfrekvencia zárja a mondat többi részénél
mélyebb értéken. Szinte mindig van utána szünet.
Péter Pázmány Catholic University, Department of Information Technology
Szillabifikáció
Még kevésbé tudni, van-e biológiai oka.
Péter Pázmány Catholic University, Department of Information Technology
A prozódia szerepe a beszédben
Az élő beszédet hallgatni, értelmezni nehéz munka.
Ezt lehet megkönnyíteni a beszéd értelemszerű
tagolásával és a hangsúlyozással.
Szerepe a nyelvben:
- szemantika: tonális nyelvekben
- szintaktika és pragmatika: minden nyelvben
Jellemzően prozódikus eszközökkel fejezi ki a beszélő
érzelmi állapotát, hangulatát, indulatait.
Péter Pázmány Catholic University, Department of Information Technology
Tonális nyelvek
A tonális nyelveken a dallam lexikális információt hordoz. Ezekben
ugyanaz a fonéma sor más-más szót jelent különböző dallammal
kiejtve. Tonális nyelvek pl. a kínai (mandarin), kantoni, tibeti,
vietnami, thai
Egy példa vietnamiból:
Mandarin kínai szótagtípusok:
Péter Pázmány Catholic University, Department of Information Technology
Hangsúlyozás
Mi a hangsúly?
Az a szótag hangsúlyos, amelynek a képzésébe érezhetően több
fiziológiai erőt fektetünk, mint a szomszédaiba.
Hangsúlyok hatóköre:
ütemhangsúly, szakaszhangsúly, mondathangsúly
Hangsúlyok szerepe:
A mondanivaló fontos részeinek megjelölése.
Topic-comment megkülönböztetés. A figyelem felkeltése mikor a
korábbiakhoz képest újat mondunk.
Érzelmi hangsúlyok: az értelmieket gyakran felülírják.
Péter Pázmány Catholic University, Department of Information Technology
Prozódia a beszédtechnológiában
Beszéd szintézis:
Ma már a jó minőségű TTS rendszereknél elvárás, hogy (közel)
természetesen hangzó intonációval és ritmussal beszéljen. Az
automatikus hírolvasók még hangsúlyozni is elfogadhatóan tudnak.
Új törekvés: Expressive Speech Synthesis
Felismerés prozódia alapján (ez még gyerekcipőben van):
Kérdés-válasz megkülönböztetés, mondathatárok megállapítása,
érzelmi állapot felismerése.
Dialógus rendszerek:
Itt mindkét irány kéne. Elsősorban azt kéne jelezni és észrevenni,
hogy mikor kinek kell átvenni a szót (turn taking prosody).
Péter Pázmány Catholic University, Department of Information Technology
Prosody in TTS
Újabb megközelítés:
text-to-speech helyett concept-to-speech
ehhez megfelelő markup language bemenet kell
Péter Pázmány Catholic University, Department of Information Technology
Szimbolikus prozódia
Tones and Break Indices (ToBI)
Péter Pázmány Catholic University, Department of Information Technology
Köszönöm a figyelmet