提升基于儿童短语音的自动说话人验证性能
1. 引言
在数字时代,网络应用的广泛普及吸引了各年龄段的人群。然而,这些网络应用在带来诸多便利的同时,也存在着泄露敏感数据和身份被盗用的风险。为应对此类问题,生物识别技术近年来得到了飞速发展,语音识别便是其中一种行为生物识别技术。语音不仅用于人类交流,还能反映说话人的身份、年龄、情感、性别、地域和健康状况等信息。自动说话人验证(ASV)技术利用算法和机器学习,依据语音特征来验证说话人的身份,具有成本低、使用便捷、认证速度快和安全性高等优点。
目前,大多数关于ASV系统的研究主要针对成年人。但如今社交网络和在线学习工具在儿童和青少年中非常流行,而儿童往往对网络风险缺乏认知,因此需要为他们开发可靠的ASV系统。不过,构建儿童ASV系统面临诸多挑战,如儿童语音语料库难以获取,数据时长和语言种类有限。即使有少量儿童语音数据,使用深度学习架构设计有效的ASV系统仍极具挑战性。此外,测试时语音时长缩短(短语音情况)也会影响系统性能,而以往关于儿童ASV的研究很少涉及短语音场景。
为解决这些问题,研究人员探索了域内和域外数据增强技术来合成更多语音数据,同时还研究了将Mel频率倒谱系数(MFCC)和逆Mel频率倒谱系数(IMFCC)这两种前端声学特征进行拼接的方法,以提高儿童ASV系统的性能。
2. 数据增强技术探索
当前先进的ASV系统采用基于x向量的说话人表示,需要训练时间延迟神经网络(TDNN)。由于TDNN等深度学习模型结构复杂,需要大量数据,而儿童语音数据的匮乏会导致系统性能不佳。数据增强技术可以通过对原始训练数据进行变换来创建新的合成数据样本,从而增加训练数据量,提高模型的泛化能力。
<
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



