CLIPS-Corpus-of-Spoken-Italian

Document Sample
CLIPS-Corpus-of-Spoken-Italian Powered By Docstoc
					Corpus of Spoken Italian release, on behalf of Federico Albano Leoni

[Apologize for multiple postings]

We are glad to announce the final release of CLIPS, corpus of spoken Italian, freely available at
www.clips.unina.it. The corpus (audio files, annotation and documentation) are fully downloadable from
the website via ftp, free for research purposes.

CLIPS consists of about 100 hours of speech, equally represented by female and male voices. A section of
the corpus is transcribed orthographically, a smaller section has been phonetically labeled. Recordings
were made in 15 Italian cities, selected on the basis of linguistic and socio-economic principles of
representativeness: Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano, Napoli,
Palermo, Parma, Perugia, Roma, Venezia.

For each of the 15 cities different text typologies have been included: a) radio and television broadcasts
(news, interviews, talk shows); dialogue (240 dialogues collected using the map task procedure and the
“spot the difference” game. In this set: 30 dialogues are phonetically labeled, 90 orthographically
transcribed); c) read speech from non professional speakers (20 sentences each, covering medium-high
frequency Italian words); d) speech over the telephone (conversations between 300 speakers and a
simulated hotel desk service operator), e) read speech from 20 professional speakers (160 sentences,
covering all phonotactic sequences and medium-high frequency Italian words) recorded in an anechoic
chamber.

Documentation, corpus collection and annotation follow the EAGLES guidelines.

Sincerely,

Federico Albano Leoni (federico.albanoleoni@uniroma1.it)

Francesco Cutugno (cutugno@unina.it)

Renata Savy (rsavy@unisa.it )

-------------------------------------------------------------------
E’ in rete il corpus di italiano parlato CLIPS al sito www.clips.unina.it. Il corpus (audio, etichettatura e
documentazione) è pubblico, l’accesso e il download completo del materiale per finalità scientifiche sono
gratuiti.
CLIPS consiste di circa 100 ore di parlato, equamente ripartito tra voci maschili e voci femminili, in parte
trascritto ortograficamente e etichettato foneticamente. Le registrazioni sono state effettuate in 15 località
italiane scelte in base a criteri di rappresentatività linguistica e socioeconomica: Bari, Bergamo, Bologna,
Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia.
Per ogni località è stato raccolto a) parlato radiotelevisivo (notiziari, interviste, talk shows); b) parlato
dialogico (240 dialoghi raccolti secondo le modalità del map task e del ‘gioco delle differenze’, dei quali 30
etichettati foneticamente, 90 trascritti ortograficamente, studenti universitari); c) parlato letto da parlanti
non professionisti (20 frasi atte a garantire la copertura delle frequenze medio-alte del lessico italiano); d)
parlato telefonico (conversazioni tra circa 300 parlatori e un portiere d’albergo simulato) e) parlato letto da
20 parlanti professionisti (160 frasi atte a garantire la copertura delle sequenza fonotattiche dell’italiano e
delle frequenze medio-altedel lessico italiano) registrato in camera anecoica.
La documentazione, i protocolli di raccolta e di annotazione del materiale tengono conto delle direttive del
progetto EAGLES.
Federico Albano Leoni (federico.albanoleoni@uniroma1.it)
Francesco Cutugno (cutugno@unina.it)
Renata Savy (rsavy@unisa.it )

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:6
posted:12/2/2011
language:English
pages:2