基于联合交叉注意力的视听说话人验证
1 引言
说话人验证主要通过声学样本验证人的身份,在客户认证、安全应用等现实场景中是关键的身份验证技术。近年来,基于声学样本的深度学习模型,如 x-vector、xi-vector 和 ECAPA - TDNN 等,显著提升了说话人验证的性能。然而,在嘈杂的声学环境中,仅依靠语音信号区分不同说话人较为困难。因此,人脸、虹膜和指纹等其他模态也被用于验证身份。其中,人脸和语音在识别身份方面关联紧密。
目前,基于视频进行身份验证的研究主要集中在单独使用人脸或语音上。受人脸和语音紧密关联的启发,视听(A - V)系统被提出用于说话人验证。但有效利用语音和人脸的融合进行说话人验证的研究仍不充分。人脸和语音相互补充,能提升单个模态的验证性能。
传统的 A - V 融合策略主要有以下三种:
| 融合策略 | 具体操作 | 优缺点 |
| ---- | ---- | ---- |
| 特征级融合(早期融合) | 简单拼接音频和视觉模态的特征,用于预测最终输出 | 允许模态在特征层面交互,但难以有效捕捉互补的模态间和模态内关系 |
| 模型级融合 | 基于深度网络、隐马尔可夫模型(HMM)和核方法等模型设计专门的融合架构 | - |
| 决策级融合 | 音频和视觉模态独立端到端训练,然后融合各自得分得到最终得分 | 训练简单易实现,但忽略了模态间的交互,对性能提升有限 |
多数现有的 A - V 融合说话人验证方法属于决策级融合(得分层面融合)或早期特征级融合(简单特征拼接),未能充分利用音频和视觉模态的模态内和模态间关系。
近年来,注意力机制被用于关注视频片段中更相关的模
超级会员免费看
订阅专栏 解锁全文
2745

被折叠的 条评论
为什么被折叠?



