翻译Audio-Visual Deep Neural Network for Robust Person Verification

基于音视频深度神经网络的鲁棒性身份确认

0 摘要

对于说话人确认来说,声音和人脸是两个最普遍的生物特征,通常应用于说话人确认和人脸确认任务。已经有研究证明,将两种模态信息进行融合可以构建更加稳定鲁棒的身份确认系统。本文全面展示多模态学习策略,提出三种音视频深度神经网络,把控特征级AVN-F,embedding级AVN-E,以及embedding级融合联合学习AVN-J。为了进一步加强系统在真实噪声场景的鲁棒性,该场景下,并不是所有的模态信息都能高质量采集,我们提出了多种数据增广策略:特征级数据增广、embedding级数据增广、特征和embedding融合的数据增广。所有模型均基于VoxCeleb2开发数据集训练,基于标准VoxCeleb1数据集进行评估,最佳系统在三个官方集合上可以达到0.558%、0.441%和0.793%的EER,这也是目前最佳单系统效果。为了评估本文方案的鲁棒性,我们基于VoxCeleb1构建了一个噪声评估集,我们的希望在该评估集上依然鲁棒。

1 介绍

对于基于语音的说话人确认系统,信道差异或噪声干扰往往影响效果,基于图像的人脸确认系统,挑战来自关照、人脸运动和姿势的变化。

2 背景

A 说话人确认

B 人脸确认

C 基于音视频进行身份确认

3 特征级音视频网络

A  模型架构

先将音频和视频特征分别编码到另一个空间进行融合

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值