Semantic Tag Augmented XlanV Model for Video Captioning
- 发表:ACMM 2021
- 代码:ST-XlanV
- idea:通过预训练的模型生成semantic tag减小模态之间的差异,增强XlanV模型的能力。使用cross-modal attention捕捉动态&静态特征以及视觉&语义特征之间的交互。设计了三个预训练任务用于tag alignment
详细设计
感觉ACMM这几篇的思路都很类似,都和原始的X-Linear那篇很像,只是将其扩展到多模态。
1. Semantic Tag Augmented XlanV Model
大致框架与上一篇类似,都是对multi-modal feature分别通过XLAN encoder提取高阶特征,然后concate之后输入cross encoder中提取包含cross-modal interactions的feature,最后输入LSTM中解码并生成captions
2. Cross-modal Attention
各个特征通过各自的encoder编码后加上位置信息,然后concate在一起并输入一个XLAN encoder中,输出特征则为cross-modal feature。平均池化后输入LSTM中。具体计算如下:
C
~
\widetilde C
C
表示平均池化后的特征,
E
y
t
−
1
E_{y_{t-1}}
Eyt−1表示上一时刻输出词的embedding
3. Pre-training Tasks
- Tag Alignment Prediction (TAP):用其他标记随机替换当前视频的语义标记,概率为50%,并预测标记是否已被替换
- Mask Language Modeling (MLM):与bert类似,随机mask掉15%的输入的句子的词
- Video Captioning(VCAP):caption generation
实验结果
-
Ablative Studies
总结:semantic tag是架起vision和language的桥梁;预训练任务有利于模型能够充分利用multi-modal interactions;强化学习策略能够改善模型的表现 -
Performance Comparison
P P P表示模型使用了预训练任务; R L RL RL表示使用了强化学习策略