语音语料韵律标注与文本聚类研究
在语音处理领域,语音语料的韵律标注准确性以及自动语音识别文本的聚类质量,对于语音合成和信息检索等应用至关重要。下面我们将深入探讨语音语料韵律标注的自动修正以及俄罗斯语自动语音识别文本聚类的相关研究。
语音语料韵律标注自动修正
在许多语言中,短语最后一个韵律词内的音高形状对于特定类型的句子以及复合/复杂句子的短语结构具有特征性。然而,在实际语音数据中,这种形式约定可能会被打破,出现与预期不同类型的韵律素。使用韵律素标注不佳的语音语料库,可能会导致合成语音的韵律不一致。因此,揭示并修正或从语料库中移除类型与给定句子结构不对应的韵律素,有助于提高合成语音的整体质量。
韵律模型与韵律素
本文采用了Romportl提出的形式韵律模型。根据该模型,一个话语可以被划分为由短停顿分隔的韵律子句。每个韵律子句包含一个或多个韵律短语,这些短语具有特定的连续语调模式。一个韵律短语由两个韵律素组成:空韵律素和功能相关韵律素,后者通常与短语中的最后一个韵律词相关。
对于捷克语,区分了以下基本类别的功能相关韵律素:
- P1:令人满意地结束的韵律素(特定于陈述句)
- P2:不令人满意地结束的韵律素(特定于疑问句)
- P3:非结束的韵律素(特定于复合/复杂句子中的非终结短语)
本文主要关注复合/复杂句子,假设这些句子的最后一个短语以韵律素P1结尾,而所有先前的短语以韵律素P3结尾。在中性语音(无强调、表达等)的情况下,预期出现韵律素P1 - 1和P3 - 1。韵律素P1 - 1的一个典型特征是其最后一个音节内的音高下降,而韵律素P3 - 1的特征是最后一个音节内的音高上升。
超级会员免费看
订阅专栏 解锁全文
29

被折叠的 条评论
为什么被折叠?



