儿童自动说话人验证系统的数据增强与特征拼接技术
1 引言
在儿童自动说话人验证(ASV)系统的开发中,数据稀缺是一个关键问题,这会导致系统性能不佳。为了解决这个问题,我们提出了一种跨领域数据增强技术,并结合特征拼接方法,旨在提高儿童 ASV 系统的性能。
2 跨领域数据增强
由于儿童语音数据有限,使用少量儿童语音训练基于 x 向量的 ASV 系统会导致性能不理想。因此,我们利用现有的成人语音语料库合成具有儿童语音声学属性的语音数据,并将其与儿童语音一起用于训练模型参数。具体方法如下:
1. 语音转换(VC) :使用循环一致生成对抗网络(CGAN)对成人语音进行转换。用每个说话人群体(成人和儿童)约 10 分钟的语音数据训练 CGAN,转换后的成人语音在听觉测试中听起来与儿童语音非常相似,大大减少了声学不匹配问题。
2. 音高缩放(PM) :将成人语音的音高提高 1.35 倍,以补偿成人和儿童语音音高的差异,采用相关文献中报道的音高修改技术。
3. 时间尺度修改(TSM) :将成人语音的说话速率降低 1.4 倍,因为儿童的说话速率比成人慢。
4. 共振峰修改(FM) :将成人语音的共振峰频率提高 0.08 倍,考虑到儿童的共振峰频率比成人高。
最后,将所有修改后的成人语音数据与儿童语音数据和未修改的成人语音数据合并,通过默认的三向速度扰动 Kaldi 管道进一步增加训练数据量。
以下是数据增强的流程:
儿童说话人验证数据增强与特征拼接
超级会员免费看
订阅专栏 解锁全文
1945

被折叠的 条评论
为什么被折叠?



