基于伽马通滤波器组的音高归一化倒谱系数用于零资源儿童自动语音识别
1. 引言
如今,自动语音识别(ASR)系统大多基于成人语音数据进行训练,因此对成人语音的识别效果较好。然而,当输入儿童语音时,系统的识别性能会显著下降,这种情况被称为零资源儿童ASR,即使用基于成人语音数据训练的系统来识别儿童语音。
造成零资源儿童ASR识别性能下降的根本原因是成人和儿童语音的声学属性存在本质差异。尽管成人和儿童语音的声学特征截然不同,但我们期望ASR系统能够同时兼容两者,以实现更强大的与说话者无关的ASR系统。由于儿童语音数据匮乏,尤其是大多数语言几乎没有可用的儿童语音数据,零资源条件下的儿童ASR问题需要得到关注。
为了解决儿童语音数据稀缺的问题,已经有多种域外数据增强方法被提出。这些方法的主要目的是修改成人训练语音的属性,使其在声学上更接近儿童语音,然后将修改后的数据用于训练,以更好地捕捉缺失的目标属性。然而,数据增强并不能完全消除零资源儿童ASR任务中声学失配的不良影响。
儿童语音的音高通常高于成人语音,这在零资源儿童ASR中会导致严重的声学失配。在前端语音参数化过程中添加频谱平滑模块有助于减少音高引起的声学失配。同时,使用伽马通滤波器组(Gamma - tone - filterbank)可以更好地模拟人类的音高感知机制。因此,我们开发了基于伽马通滤波器组和显式频谱平滑的前端参数化技术,以最小化音高引起的声学失配。频谱平滑基于音高自适应倒谱截断(PACT)或变分模态分解(VMD)。
2. 提出的音高归一化前端声学特征
我们将传统梅尔频率倒谱系数(MFCC)特征提取过程中使用的三角梅尔滤波器组替换为伽马通滤波器组(GTF)。梅尔滤波器组用
超级会员免费看
订阅专栏 解锁全文
46

被折叠的 条评论
为什么被折叠?



