1 INTRODUCTION
视频分析和理解是计算机视觉和机器学习研究的重大挑战。虽然以前的工作传统上依赖于 hand-crafted and task-specific representations(Wang et al.,2011;Sadanand&Corso,2012),但设计通用视频表示的兴趣越来越大,可以帮助解决视频理解中的任务,如人类行为识别,视频检索或视频字幕(Tran et al,2014)。
二维CNN已经在诸如分类或检测的静态图像任务中展现了最先进的表现(Simonyan&Zisserman,2014b)。然而,这样的模型丢弃了时间信息,时间信息已经显示在视频中提供重要的线索(Wang et al,2011)。另一方面,RNN已经证明了这一能力,理解诸如语音识别(Graves&Jaitly,2014)或机器翻译(Bahdanau等,2014)等各种学习任务中的时间序列。因此,近来提出的利用循环和卷积的循环卷积网络(RCN)(Srivastava等,2015;