口语语料库的设计与应用
在语音技术领域,口语语料库的设计和应用是非常重要的研究方向。下面将详细介绍口语语料库相关的一些关键内容,包括数据类别和时间功能的差异,以及口语语料库在研究和技术应用方面的具体情况。
数据类别和时间功能的差异
在语音技术中,需要从两个不同角度看待类别和时间功能的差异。
- 数据类别特性 :对于自然语言(NL),决定数据收集的相关类别是固有的。给定文本的 ASCII 符号本身就是基本类别,可直接用于形成语法可分析的表达式,以表示所有不同的语言相关类别,相关类别信息能从给定数据及其 ASCII 表示中直接推断。而数字语音信号的数据不显示任何此类类别,它们仅代表一个测量的时间函数,没有固有的类别解释。目前在语音语言处理(SLP)的发展阶段,甚至无法自动判断给定数字信号是否为语音信号。因此,语音语言(SL)数据的必要类别注释仍需人工完成(半自动程序的支持逐渐增加)。
- 语音信号的额外信息 :语音信号包含相关的韵律和副语言信息,这些信息未由给定话语中发音的纯文本表示。只要自然语言处理(NLP)仅限于非口语语言处理,对 NL 数据的限制不会造成严重问题。但一旦在信息技术应用中处理真实的语音话语,其他非语言但在交际中极其相关的类别就不能被忽视。这些信息必须在未来的 SL 数据收集中得到体现,国际科学界仍需投入大量精力来处理任何给定语音话语的这些信息承载方面。
口语语料库的应用
口语语料库总是为特定目的而设计,其目的决定了语料库的内容和设计。下面将分别介绍口语语料库在研究和技术应用方面的情况。
超级会员免费看
订阅专栏 解锁全文
16

被折叠的 条评论
为什么被折叠?



