基于音视频深度神经网络的鲁棒性身份确认
0 摘要
对于说话人确认来说,声音和人脸是两个最普遍的生物特征,通常应用于说话人确认和人脸确认任务。已经有研究证明,将两种模态信息进行融合可以构建更加稳定鲁棒的身份确认系统。本文全面展示多模态学习策略,提出三种音视频深度神经网络,把控特征级AVN-F,embedding级AVN-E,以及embedding级融合联合学习AVN-J。为了进一步加强系统在真实噪声场景的鲁棒性,该场景下,并不是所有的模态信息都能高质量采集,我们提出了多种数据增广策略:特征级数据增广、embedding级数据增广、特征和embedding融合的数据增广。所有模型均基于VoxCeleb2开发数据集训练,基于标准VoxCeleb1数据集进行评估,最佳系统在三个官方集合上可以达到0.558%、0.441%和0.793%的EER,这也是目前最佳单系统效果。为了评估本文方案的鲁棒性,我们基于VoxCeleb1构建了一个噪声评估集,我们的希望在该评估集上依然鲁棒。
1 介绍
对于基于语音的说话人确认系统,信道差异或噪声干扰往往影响效果,基于图像的人脸确认系统,挑战来自关照、人脸运动和姿势的变化。
2 背景
A 说话人确认
B 人脸确认
C 基于音视频进行身份确认
3 特征级音视频网络

A 模型架构
先将音频和视频特征分别编码到另一个空间进行融合

最低0.47元/天 解锁文章
4736

被折叠的 条评论
为什么被折叠?



