音频 - 视觉说话人验证与读写和自发语音分类研究
音频 - 视觉说话人验证
在音频 - 视觉说话人验证领域,提出了一种联合交叉注意力的 A - V 融合模型。该模型的核心在于有效利用音频和视觉模态之间的模态内和模态间互补关系。
特征计算
首先,通过以下步骤计算音频和视觉模态的注意力图及特征:
- 音频模态的注意力图($H_a$):$H_a$的相关计算中涉及$W_{ca} \in R^{d_a×d_a}$ 。
- 视觉模态的注意力图($H_v$):通过公式$H_v = ReLU(X_vW_{cv}C_v)$ 计算,其中$W_{cv} \in R^{d_v×d_v}$ 是可学习的权重矩阵。
- 计算音频和视觉模态的关注特征:
- 音频:$X_{att,a} = H_aW_{ha} + X_a$
- 视觉:$X_{att,v} = H_vW_{hv} + X_v$
这里$W_{ha} \in R^{d×d_a}$ 和$W_{hv} \in R^{d×d_v}$ 分别是音频和视觉模态的可学习权重矩阵。
- 拼接得到 A - V 特征表示:$\hat{X} = [X_{att,v}; X_{att,a}]$
后续处理
将关注的音频 - 视觉特征向量输入双向 LSTM 以捕获联合音频 - 视觉特征表示的时间动态。然后,将段级音频 - 视觉特征表示输入到注意力统计池化(ASP)中,以获得音频 - 视觉特征向量的子序列或话语级表示。最后,使用最终音频 - 视觉特征表示的嵌入来获取分数,并使用加性角边际软最大(AAMSoftmax)损失函数优化融合模型和 ASP 模块的参数。 </
音频-视觉说话人验证与语音分类研究
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



