提升儿童短语音自动说话人验证系统性能:数据增强与特征融合策略
1. 引言
在当今社会,社交网络和在线学习工具风靡一时。它们在信息传播方面发挥着重要作用,但也带来了敏感数据泄露和身份盗窃的风险。尤其是儿童,由于对这些风险缺乏认知,更容易成为受害者。自动说话人验证(ASV)系统作为一种安全工具,能够验证说话人的身份,在保障儿童网络安全方面具有重要意义。
然而,构建儿童ASV系统面临诸多挑战。最大的难题是儿童语音语料库稀缺,这使得训练模型所需的数据严重不足。此外,儿童语音数据库语言种类有限,对于缺乏儿童语音语料的语言(零资源条件),开发ASV系统更是难上加难。即使有少量儿童语音数据(低资源条件),使用深度学习架构开发儿童ASV系统也极具挑战性,因为深度学习需要大量特定领域的数据来估计大量参数。
为应对这些挑战,研究人员采用了数据增强技术和特征融合方法。数据增强通过对现有数据进行修改和扩充,增加训练数据的数量和多样性;特征融合则将不同的前端特征结合起来,以捕获更全面的语音信息。
2. 数据准备与特征提取
为了获取更多可用于训练的儿童语音数据,研究人员采用了多种数据修改技术,包括语音转换(VC)、韵律修改(PM)和共振峰修改(FM)。经过这些处理后,得到了63小时具有类似儿童语音声学属性的合成数据。
在特征提取方面,使用了Kaldi工具包来创建整个ASV系统配置并进行实验。采用了两种前端声学特征,即梅尔频率倒谱系数(MFCC)和逆梅尔频率倒谱系数(IMFCC)来表示语音信号。具体的特征提取步骤如下:
1. 预处理 :语音数据通过一阶高通滤波器,预加重因子为0.97。
2
超级会员免费看
订阅专栏 解锁全文
1144

被折叠的 条评论
为什么被折叠?



