41、提升基于儿童短语音的自动说话人验证性能

提升基于儿童短语音的自动说话人验证性能

1. 引言

在数字时代,网络应用的广泛普及吸引了各年龄段的人群。然而,这些网络应用在带来诸多便利的同时,也存在着泄露敏感数据和身份被盗用的风险。为应对此类问题,生物识别技术近年来得到了飞速发展,语音识别便是其中一种行为生物识别技术。语音不仅用于人类交流,还能反映说话人的身份、年龄、情感、性别、地域和健康状况等信息。自动说话人验证(ASV)技术利用算法和机器学习,依据语音特征来验证说话人的身份,具有成本低、使用便捷、认证速度快和安全性高等优点。

目前,大多数关于ASV系统的研究主要针对成年人。但如今社交网络和在线学习工具在儿童和青少年中非常流行,而儿童往往对网络风险缺乏认知,因此需要为他们开发可靠的ASV系统。不过,构建儿童ASV系统面临诸多挑战,如儿童语音语料库难以获取,数据时长和语言种类有限。即使有少量儿童语音数据,使用深度学习架构设计有效的ASV系统仍极具挑战性。此外,测试时语音时长缩短(短语音情况)也会影响系统性能,而以往关于儿童ASV的研究很少涉及短语音场景。

为解决这些问题,研究人员探索了域内和域外数据增强技术来合成更多语音数据,同时还研究了将Mel频率倒谱系数(MFCC)和逆Mel频率倒谱系数(IMFCC)这两种前端声学特征进行拼接的方法,以提高儿童ASV系统的性能。

2. 数据增强技术探索

当前先进的ASV系统采用基于x向量的说话人表示,需要训练时间延迟神经网络(TDNN)。由于TDNN等深度学习模型结构复杂,需要大量数据,而儿童语音数据的匮乏会导致系统性能不佳。数据增强技术可以通过对原始训练数据进行变换来创建新的合成数据样本,从而增加训练数据量,提高模型的泛化能力。

<
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值