Delving Deeper into Convolutional Networks for Learning Video Representations

1 INTRODUCTION

       视频分析和理解是计算机视觉和机器学习研究的重大挑战。虽然以前的工作传统上依赖于 hand-crafted and task-specific representations(Wang et al.,2011;Sadanand&Corso,2012),但设计通用视频表示的兴趣越来越大,可以帮助解决视频理解中的任务,如人类行为识别,视频检索或视频字幕(Tran et al,2014)。

     二维CNN已经在诸如分类或检测的静态图像任务中展现了最先进的表现(Simonyan&Zisserman,2014b)。然而,这样的模型丢弃了时间信息,时间信息已经显示在视频中提供重要的线索(Wang et al,2011)。另一方面,RNN已经证明了这一能力,理解诸如语音识别(Graves&Jaitly,2014)或机器翻译(Bahdanau等,2014)等各种学习任务中的时间序列。因此,近来提出的利用循环和卷积的循环卷积网络(RCN)​​Srivastava等,2015;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值