翻译Audio-Visual Deep Neural Network for Robust Person Verification

最新推荐文章于 2022-07-04 19:20:58 发布

原创

最新推荐文章于 2022-07-04 19:20:58 发布 · 484 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

基于音视频深度神经网络的鲁棒性身份确认

0 摘要

对于说话人确认来说，声音和人脸是两个最普遍的生物特征，通常应用于说话人确认和人脸确认任务。已经有研究证明，将两种模态信息进行融合可以构建更加稳定鲁棒的身份确认系统。本文全面展示多模态学习策略，提出三种音视频深度神经网络，把控特征级AVN-F，embedding级AVN-E，以及embedding级融合联合学习AVN-J。为了进一步加强系统在真实噪声场景的鲁棒性，该场景下，并不是所有的模态信息都能高质量采集，我们提出了多种数据增广策略：特征级数据增广、embedding级数据增广、特征和embedding融合的数据增广。所有模型均基于VoxCeleb2开发数据集训练，基于标准VoxCeleb1数据集进行评估，最佳系统在三个官方集合上可以达到0.558%、0.441%和0.793%的EER，这也是目前最佳单系统效果。为了评估本文方案的鲁棒性，我们基于VoxCeleb1构建了一个噪声评估集，我们的希望在该评估集上依然鲁棒。

1 介绍

对于基于语音的说话人确认系统，信道差异或噪声干扰往往影响效果，基于图像的人脸确认系统，挑战来自关照、人脸运动和姿势的变化。

2 背景

A 说话人确认

B 人脸确认

C 基于音视频进行身份确认

3 特征级音视频网络

A 模型架构

先将音频和视频特征分别编码到另一个空间进行融合

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。