原文链接: https://openaccess.thecvf.com/content_ECCV_2018/html/Bolei_Zhou_Temporal_Relational_Reasoning_ECCV_2018_paper.html
简介
TRN方法旨在学习和推理视频帧之间在多尺度上的时间段(temporal)独立性,进而理解视频时间片段之间的关系,最终得到理解视频语义的目的。
动作识别是计算机视觉领域核心课题之一,视频片段间的关系对于动作识别至关重要。动作识别的难点在于选择合适的时间尺度来描述动作,而此前许多技术都是使用静态帧和光流法等来实现动作识别。TRN是一个即插即用型的模块,可以用于任何CNN网络,作者构建基于TRN的模型,在三个动作识别数据集(Something-Something, Jester, and Charades)上进行了测试,都取得了很好的结果。
相关工作
CNN用于动作识别的工作:
- 基于RGB图像帧的模型
- 双流法,基于RGB图像和光流图
- 3D卷积网络,使用3D卷积核提取视频信息
- TSN方法(前一篇文章),基于双流法,采用分割时间段的方法提取视频长程信息
- CNN+LSTM模型
- I3D网络,结合3D卷积和双流法,在Kinetics数据集上取得了sota
现有CNN方法存在两方面不足:
- 需要获取光流图,降低了效率
- 3D卷积的输入是稠密的帧,计算复杂度高
- 难以获取更长程的信息
鉴于以上原因,TRN使用稀疏帧输入,推理帧之间的因果关系。
动作识别数据集:
当前的动作识别数据集大多通过“大众外包”获得。包括本文使用的Something-Something, Jester, and Charades三个数据集。
TRN模型
定义时间关系
输入是视频V,其中包括n个选中的有序帧,即:V = {
f 1 , f 2 , . . . , f n f_1, f_2, ..., f_n f1,f2,...,fn}, 其中的 f i f_i f