一、核心原理剖析
1. 基本思想
共注意力机制(Co-Attention)通过建立双向注意力交互通道,同步学习图像和问题两个模态的关键信息。与传统单向注意力相比,其核心创新在于:
- 双向信息流:图像特征和问题特征互为注意力计算的Key-Value对
- 层次化对齐:在词级、短语级、问题级三个粒度上建立对应关系
- 动态权重分配:通过亲和矩阵学习跨模态特征关联强度
2. 数学建模
给定图像特征矩阵V∈R^{d×m} 和问题特征矩阵Q∈R^{d×n},共注意力计算流程为:
-
亲和矩阵构建:
S = tanh(Q^T W V) ∈ R^{n×m}
其中W∈R^{d×d}为可学习参数矩阵
-
双向注意力生成:
- 图像注意力权重:α = softmax(S) ∈ R^{n×m}
- 问题注意力权重:β = softmax(S^T) ∈ R^{m×n}
-
上下文向量生成