41、提升基于儿童短语音的自动说话人验证性能-优快云博客

本文链接：https://blog.youkuaiyun.com/oo7890/article/details/151702383

提升基于儿童短语音的自动说话人验证性能

1. 引言

在数字时代，网络应用的广泛普及吸引了各年龄段的人群。然而，这些网络应用在带来诸多便利的同时，也存在着泄露敏感数据和身份被盗用的风险。为应对此类问题，生物识别技术近年来得到了飞速发展，语音识别便是其中一种行为生物识别技术。语音不仅用于人类交流，还能反映说话人的身份、年龄、情感、性别、地域和健康状况等信息。自动说话人验证（ASV）技术利用算法和机器学习，依据语音特征来验证说话人的身份，具有成本低、使用便捷、认证速度快和安全性高等优点。

目前，大多数关于ASV系统的研究主要针对成年人。但如今社交网络和在线学习工具在儿童和青少年中非常流行，而儿童往往对网络风险缺乏认知，因此需要为他们开发可靠的ASV系统。不过，构建儿童ASV系统面临诸多挑战，如儿童语音语料库难以获取，数据时长和语言种类有限。即使有少量儿童语音数据，使用深度学习架构设计有效的ASV系统仍极具挑战性。此外，测试时语音时长缩短（短语音情况）也会影响系统性能，而以往关于儿童ASV的研究很少涉及短语音场景。

为解决这些问题，研究人员探索了域内和域外数据增强技术来合成更多语音数据，同时还研究了将Mel频率倒谱系数（MFCC）和逆Mel频率倒谱系数（IMFCC）这两种前端声学特征进行拼接的方法，以提高儿童ASV系统的性能。