Detecção automática de fronteiras prosódicas entre unidades entonacionais

Autores

DOI:

https://doi.org/10.47627/gradus.v5i1.147

Palavras-chave:

Fronteiras prosódicas, Detecção automática, Fala espontânea, Segmentação da fala

Resumo

A fala é segmentada em unidades entonacionais marcadas por fronteiras prosódicas. Este trabalho tem como objetivo investigar os parâmetros fonético-acústicos que orientam a produção e a percepção de fronteiras prosódicas e desenvolver modelos para detecção automática de fronteiras prosódicas em fala espontânea. Duas amostras de trechos de fala espontânea masculina foram segmentadas em unidades entonacionais por dois grupos de segmentadores treinados. As fronteiras percebidas pelos segmentadores foram anotadas como terminais (TB) ou não-terminais (NTB). Um script foi utilizado para extrair parâmetros fonético-acústicos ao longo do sinal de fala. Os parâmetros extraídos compreendem medidas de: 1) Velocidade e ritmo da fala; 2) Duração normalizada; 3) Frequência fundamental; 4) Intensidade; 5) Pausa silenciosa. Foi desenvolvido um treinamento de modelos compostos por múltiplos parâmetros projetados para a identificação automática das fronteiras marcadas pelos segmentadores. Utilizou-se o algoritmo Linear Discriminant Analysis e considerou-se como fronteira posições em que pelo menos 50% dos segmentadores indicaram uma fronteira do mesmo tipo. O modelo de detecção automática de fronteiras terminais mostra uma convergência de 80% em relação às fronteiras terminais observadas pelos segmentadores na amostra I. Para fronteiras não-terminais, foram obtidos três modelos de classificação estatística. Juntos, os três modelos mostram uma convergência de 98% em relação às fronteiras não-terminais observadas pelos segmentadores na amostra I. Os modelos foram validados posteriormente na amostra II. Os resultados da validação indicam que o desempenho do modelo TB é de 74% e o dos modelos NTB é de 88% na amostra II.

Biografia do Autor

Bárbara Helohá Falcão Teixeira, Universidade Federal de Minas Gerais

Doutoranda em Linguística Teórica e Descritiva no Programa de Pós-Graduação em Estudos Linguísticos da Universidade Federal de Minas Gerais.

Tommaso Raso, Universidade Federal de Minas Gerais

`Professor Titular de Linguística da Universidade Federal de Minas Gerais.

Plínio Almeida Barbosa, Universidade Estadual de Campinas

Professor Associado III da Universidade Estadual de Campinas.

Referências

Ananthakrishnan, Sankaranarayanan e Shrikanth S. Narayanan (2005). “An automatic prosody recognizer using a coupled multi-stream acoustic model and a syntactic-prosodic language model”. Proceedings IEEE International Conference on Acoustics, Speech, and Signal Processing (18 de março de 2005–23 de março de 2005). Volume 1. 5 volumes. The Institute of Electrical and Electronics Engineers – Signal Processing Society. Philadelphia, pp. 269–272. ISBN: 0780388747. DOI: 10.1109/ICASSP.2005.1415102.

Auran, Cyril, Caroline Bouzon e Daniel Hirst (2004). “The Aix-MARSEC project: an evolutive database of spoken British English”. Proceedings of Speech Prosody 2004. Speech Prosody 2004 (23 de março de 2004). Editado por Bernard Bel e Isabelle Marlien. International Speech Communication Association. Nara, pp. 561–564. ISBN: 9782951823310.

Barbosa, Plínio Almeida (1994). “Caractérisation et génération automatique de la structuration rythmique du français”. Tese de doutoramento. Grenoble: Institut national Polytechnique.

Barbosa, Plínio Almeida (2006). Incursões em torno do ritmo da fala. Campinas: Pontes. ISBN: 9788571132337.

Barbosa, Plínio Almeida (2010). “Automatic duration-related salience detection in Brazilian Portuguese read and spontaneous speech”. Proceedings of the Fifth International Conference on Speech Prosody. Speech Prosody 2010 (11 de maio de 2010–14 de maio de 2010). Chicago. URL: https://www.isca-speech.org/archive/sp2010/papers/sp10_067.pdf.

Barth-Weingarten, Dagmar (2016). Intonation Units Revisited. Cesuras in talk-in-interaction. Amsterdam: John Benjamins Publishing Company. ISBN: 9789027226396. DOI: 10.1075/slsi.29.

du Bois, John W., Susanna Cumming, Stephan Schuetze-Coburn e Danae Paolino (1992). “Discourse transcription”. In: Santa Barbara Papers in Linguistics. Volume 4. Santa Barbara: University of California, Santa Barbara. URL: https://www.linguistics.ucsb.edu/research/santa- barbara-papers.

du Bois, John W. et al. (2000). Santa Barbara corpus of spoken American English. URL: https://www.linguistics.ucsb.edu/research/santa-barbara-corpus.

Bybee, Joan (2010). Language, usage and cognition. Cambridge (UK): Cambridge University Press. ISBN: 9780521851404.

Chafe, Wallace L. (1980). “The deployment of consciousness in the production of a narrative”. In: The pear stories. Cognitive, cultural, and linguistic aspects of narrative production. Editado por Wallace L. Chafe. Norwood (NJ): Ablex, pp. 9–50. ISBN: 9780893910327.

Chafe, Wallace L. (1994). Discourse, consciousness, and time. The flow and displacement of conscious experience in speaking and writing. Chicago: University of Chicago Press. ISBN: 0226100545.

Cheng, Winnie, Christopher Greaves e Martin Warren (2005). “The creation of a prosodically transcribed intercultural corpus. The Hong Kong Corpus of Spoken English (prosodic)”. ICAME journal 29, pp. 47–68.

Cooper, William E. e Jeanne Paccia-Cooper (1980). Syntax and speech. Cambridge (MA): Harvard University Press. ISBN: 0674860756.

Cresti, Emanuela (2000). Corpus di italiano parlato. Volume 1. Firenze: Accademia della Crusca. ISBN: 9788887850017.

Cresti, Emanuela e Massimo Moneglia (2005). C-ORAL-ROM: integrated reference corpora for spoken Romance languages. Volume 15. Amsterdam: John Benjamins Publishing. ISBN: 902722286X.

Croft, William (1995). “Intonation units and grammatical structure”. Linguistics 33.5, pp. 839–882. DOI: 10.1515/ling.1995.33.5.839.

Cruttenden, Alan (1997). Intonation. 2a edição. Cambridge (UK): Cambridge University Press. ISBN: 0521591821.

Frazier, Lyn, Katy Carlson e Charles Clifton Jr (2006). “Prosodic phrasing is central to language comprehension”. Trends in cognitive sciences 10.6, pp. 244–249. DOI: 10.1016/j.tics.2006.04.002.

Halliday, M. A. K. (1965). “Speech and situation”. English in Education 2.A2, pp. 14–17. DOI: 10.1111/j.1754-8845.1965.tb01331.x.

Izre’el, Shlomo, Heliana Mello, Alessandro Panunzi e Tommaso Raso, editores (2020). In Search of Basic Units of Spoken Language. A corpus-driven approach. John Benjamins. ISBN: 9789027204974. DOI: 10.1075/scl.94.

Kjelgaard, Margaret M. e Shari R. Speer (1999). “Prosodic facilitation and interference in the resolution of temporary syntactic closure ambiguity”. Journal of Memory and Language 40.2, pp. 153–194. DOI: 10.1006/jmla.1998.2620.

Kraljic, Tanya e Susan E Brennan (2005). “Prosodic disambiguation of syntactic structure. For the speaker or for the addressee?” Cognitive psychology 50.2, pp. 194–231. DOI: 10.1016/j.cogpsych.2004.08.002.

Ladd, Robert (2008 [1996]). Intonational Phonology. 2nd, revised edition. Cambridge: Cambridge University Press. ISBN: 9781139473996.

Mertens, Piet e Anne Catherine Simon (2013). “Towards automatic detection of prosodic boundaries in spoken French”. Proceedings of the Prosody-Discourse Interface Conference 2013 (IDP-2013) (11 de setembro de 2013–13 de setembro de 2013). Editado por Piet Mertens e Anne Catherine Simon. Leuven, pp. 81–87. ISBN: 9789090278766.

Mettouchi, Amina e Christian Chanard (2010). “From fieldwork to annotated corpora. The CorpAfroAs Project”. Faits de Langues 35–36.2, pp. 255–265. DOI: 10.1163/19589514-035-036-02-900000011.

Mo, Yoonsook, Jennifer Cole e Eun-Kyung Lee (2008). “Naïve listeners’prominence and boundary perception”. Proceedings of the Fourth Conference on Speech Prosody (6 de maio de 2008–9 de maio de 2008). Editado por Plínio Almeida Barbosa, Sandra Madureira e César Reis. International Speech Communication Association. Campinas, pp. 735–738.

Moneglia, Massimo e Emanuela Cresti (1997). “L’intonazione e i criteri di trascrizione del parlato adulto e infantile”. In: Il Progetto CHILDES-Italia: Contributi di ricerca sulla lingua italiana. Editado por Umberta Bortolini e Elena Pizzuto. Pisa: Edizioni del Cerro, pp. 57–90. ISBN: 9788882160111.

Ni, Chong-Jia, Ai-Ying Zhang, Wen-Ju Liu e Bo Xu (2012). “Automatic prosodic break detection and feature analysis”. Journal of Computer Science and Technology 27.6, pp. 1184–1196. DOI: 10.1007/s11390-012-1295-z.

Ostendorf, Mari, Patti J Price e Stefanie Shattuck-Hufnagel (1995). The Boston University radio news corpus. URL: https://catalog.ldc.upenn.edu/LDC96S36.

Pierrehumbert, Janet (1980). “The phonetics and phonology of English intonation”. Tese de doutoramento. Cambridge (MA): Massachusetts Institute of Technology.

Pierrehumbert, Janet B., Mary E. Beckman e D. R. Ladd (2000). “Conceptual foundations of phonology as a laboratory science”. In: Phonological knowledge. Conceptual and empirical issues. Editado por Noel Burton-Roberts, Philip Carr e Gerard Docherty. Oxford: Oxford University Press, pp. 273–304. ISBN: 9780199245772.

de Pijper, Jan Roelof e Angelien A. Sanderman (1994). “On the perceptual strength of prosodic boundaries and its relation to suprasegmental cues”. The Journal of the Acoustical Society of America 96.4, pp. 2037–2047. DOI: 10.1121/1.410145.

Pike, Kenneth L. (1945). The Intonation of American English. Ann Arbor: University of Michigan Press.

Raso, Tommaso e Heliana Mello (2012). C-ORAL-BRASIL I: corpus de referência do Português Brasileiro falado informal. Belo Horizonte: Universidade Federal de Minas Gerais. ISBN: 9788570419439.

Raso, Tommaso, Heliana Mello e Lúcia Ferrari (sem data). C-ORAL-BRASIL II: corpus de referência do Português Brasileiro falado informal. Em preparação.

Raso, Tommaso, Maryualê Malvessi Mittmann e Anna Carolina Oliveira Mendes (2015). “O papel da pausa na segmentação prosódica de corpora de fala”. Revista de Estudos da Linguagem 23.3, pp. 883–922. DOI: 10.17851/2237-2083.23.3.883-922.

Reed, Beatrice Szczepek (2012). “Prosody, syntax and action formation. Intonation phrases as action components”. In: Prosody and embodiment in interactional grammar. Editado por Pia Bergmann, Jana Brenning, Martin Pfeiffer e Elisabeth Reber. Berlin: Walter de Gruyter, pp. 142–169. ISBN: 9783110295047.

Ross, Kenneth N. e Mari Ostendorf (1996). “Prediction of abstract prosodic labels for speech synthesis”. Computer Speech & Language 10.3, pp. 155–185. DOI: 10.1006/csla.1996.0010.

Schafer, Amy J., Shari R. Speer e Paul Warren (2005). “Prosodic influences on the production and comprehension of syntactic ambiguity in a game-based conversation task”. In: Approaches to studying world-situated language use. Bridging the language-as-product and language-as-action traditions. Editado por John C. Trueswell e Michael K. Tanenhaus. MIT Press, pp. 209–225. ISBN: 9780262201490.

Schubiger, Maria (1958). English intonation. Its form and function. Halle: M. Niemeyer Verlag.

Schuetze-Coburn, Stephan Mark (1994). “Prosody, syntax, and discourse pragmatics. Assessing information flow in German conversation”. Tese de doutoramento. University of California, Los Angeles.

Schuurman, Ineke, Machteld Schouppe, Heleen Hoekstra e Ton van der Wouden (2003). “CGN, an annotated corpus of spoken Dutch”. Proceedings of 4th International Workshop on Linguistically Interpreted Corpora (LINC-03) at EACL 2003 (13 de abril de 2003–14 de abril de 2003). Editado por Anne Abeillé, Silvia Hansen-Schirra e Hans Uszkoreit. Association for Computer Linguistics. Budapest, pp. 101–108. URL: https://www.aclweb.org/anthology/W03-2414.

Selkirk, Elisabeth (2005). “Comments on intonational phrasing in English”. In: Prosodies. With special reference to Iberian languages. Editado por Sónia Frota, Marina Vigário e Maria João Freitas. Berlin: Walter de Gruyter, pp. 11–58. ISBN: 9783110184440.

Silverman, Kim et al. (1992). “ToBI: A standard for labeling English prosody”. Proceedings of the 7th International Conference on Spoken Language Processing. 7th International Conference on Spoken Language Processing (16 de setembro de 2002–20 de setembro de 2002). Editado por John H. L. Hansen e Bryan Pellom. International Speech Communication Association. Denver, pp. 867–870.

Snedeker, Jesse e John Trueswell (2003). “Using prosody to avoid ambiguity. Effects of speaker awareness and referential context”. Journal of Memory and language 48.1, pp. 103–130. DOI: 10.1016/S0749-596X(02)00519-3.

Speer, Shari R., Margaret M. Kjelgaard e Kathryn M. Dobroth (1996). “The influence of prosodic structure on the resolution of temporary syntactic closure ambiguities”. Journal of psycholinguistic research 25.2, pp. 249–271. DOI: 10.1007/BF01708573.

Swerts, Marc (1994). “Prosodic Features of Discourse Units”. Tese de doutoramento. Technische Universiteit Eindhoven. DOI: 10.6100/IR411593.

Swerts, Marc (1997). “Prosodic features at discourse boundaries of different strength”. The Journal of the Acoustical Society of America 101.1, pp. 514–521. DOI: 10.1121/1.418114.

Teixeira, Bárbara Helohá Falcão (2018). “Correlatos fonético-acústicos de fronteiras prosódicas na fala espontânea”. Tese de mestrado. Universidade Federal de Minas Gerais. URL: http://hdl.handle.net/1843/LETR-AX8HUG.

Warren, Paul, Esther Grabe e Francis Nolan (1995). “Prosody, phonology and parsing in closure ambiguities”. Language and cognitive processes 10.5, pp. 457–486. DOI: 10.1080/01690969508407112.

Watson, Duane e Edward Gibson (2004). “The relationship between intonational phrasing and syntactic structure in language production”. Language and cognitive processes 19.6, pp. 713–755. DOI: 10.1080/01690960444000070.

Wightman, Colin W. e Mari Ostendorf (1994). “Automatic labeling of prosodic patterns”. IEEE Transactions on speech and audio processing 2.4, pp. 469–481. DOI: 10.1109/89.326607.

Wightman, Colin W., Stefanie Shattuck-Hufnagel, Mari Ostendorf e Patti J. Price (1992). “Segmental durations in the vicinity of prosodic phrase boundaries”. The Journal of the Acoustical Society of America 91.3, pp. 1707–1717. DOI: 10.1121/1.402450.

Downloads

Publicado

2020-08-10 — Atualizado em 2020-08-11

Versões

Como Citar

TEIXEIRA, B. H. F.; RASO, T.; BARBOSA, P. A. Detecção automática de fronteiras prosódicas entre unidades entonacionais. Gradus - Revista Brasileira de Fonologia de Laboratório, Curitiba, v. 5, n. 1, p. 17-46, 2020. DOI: 10.47627/gradus.v5i1.147. Disponível em: https://gradusjournal.com/index.php/gradus/article/view/147. Acesso em: 24 out. 2020.

Edição

Seção

Artigos