神经网络在语音处理中的应用
1. 语音识别系统的适应性
在语音识别领域,为了应对不同说话者之间的巨大差异,面向说话者无关的识别系统通常使用大型数据库进行训练。然而,当系统在一段时间内主要由单个用户使用时,可以对系统内现有的语音子单元模型进行调整,以适应特定说话者,从而提高识别性能。对于一些基于人工神经网络(ANN)的架构,只需调整相对较少的参数可能就足够了。此外,ANN还可用于为新说话者构建归一化映射。
2. 语言建模
目前,在语言建模方面,基于ANN的工作还相对较少。当前效果较好的语言模型是统计模型,其目的是根据前面的单词预测下一个口语单词。多层感知器(MLP)也被应用于此,有报告显示,使用基于MLP的单词类别预测,其单词识别得分比使用标准三元语言模型更高。
3. 说话者识别与验证
说话者识别和验证在决策选项数量上有所不同。说话者识别是从预先指定的说话者池中确定说话者的身份,而说话者验证则是接受或拒绝关于说话者身份的声明。
- 特征提取与比较 :与任何模式识别问题一样,先进行特征提取,然后将其与说话者模型进行相似度比较。对于识别,是与整个说话者池的模型进行比较并选择最大值;对于验证,是与声称的说话者模型进行比较并进行阈值判断。模型和比较方法通常与语音识别算法相关,例如在文本相关的情况下,模型可以是每个说话者存储的单词,通过动态时间规整与未知说话者说出的相同单词进行比较;在文本无关的情况下,模型可以是根据提示文本拼接的音素隐马尔可夫模型,然后评估特定说话者模型生成该话语的可能性。也可以为每个说话者构建混合高斯模型,这样可以避免语音的时间建模方面的问题。
-
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



