本片论文是发表在AAAI-18上的一篇文章,清华大学出品。基于注意力机制的多模式融合,视频本身就是多模式的,包括视觉和声音等,单纯的考虑一种模式并不全面。

对于上面的实例,图像和运动占很大比例,也就是说RGB和光流是最重要的信息,音频信息所占用的比例不大,起到的作用也相对较小。而在清洗牙刷的过程中,可以看到音频信息占了很大的比列,RGB和光流信息没有起到很大的作用。对于下面的示例,在我们跑步的过程中,很显然是光流信息起到了最重要的作用,在跳跃和落地的过程中,可以清晰的看到,RGB信息和音频信息才是最重要的特征。
所以文章中基于此分析,得出了一个结论,不同的形式在不同的时间段可能是相关的,在顶部示例中图像和动作是相关的,在底部示例中,图像和声音是相关的,因此得出,不能单独的考虑单一的模式。本文详细的研究了多模式融合的位置和方法。
本文的主要贡献:
1、提出了一种简单有效的注意机制,有效地帮助训练RNN模型。
2、分析和研究了基于多模态RNN的架构的各种融合方法,并发现我们提出的基于注意力的融合可以稳健地实现最佳结果。
3、展示了我们提出的体系结构在四个高度异构的视频分类数据集中的稳健性,包括具有修剪和长度未修剪视频的数据集,以及单标签和多标签分类设置。 我们在标准UCF-101和ActivityNet数据集以及具有挑战性的新Kinetics和YouTube-8M竞赛中取得了极具竞争力的成果

主要思路:Multimodal Representation意思是多模式表示,在行为识别任务上,文章采用了视觉特征(Visual Features,包含RGB特征 和 flow features);声学特征(Acoustic Feature);前面两个特征都是针对时序,但是时序太长并不适合直接喂到LSTM,所以作者采用了分割的方法(Segment-Level Features),将得到的等长的Segment喂到LSTM。
实验结果:
特点:该文章实验在多个数据集上,文章称鲁棒性比较好。
UCF101上,最高94.8%
ActivityNet上,最高78.5%
Kinetics上,Top-1:77.0%,Top-5:93.2%
YouTube-8M GAP@20,60K Valid:80.9%,Test:82.2%