2017-Aggregating Frame-level Features for Large-Scale Video classification聚合帧级功能以进行大规模视频分类

本文详述了一种用于大规模视频分类的方法,通过在YouTube-8M数据集上使用RNN变体(如双向RNN)和VLAD聚合技术,以及融合策略,达到了全球平均精度@20的0.84198,取得挑战赛第4名。研究证明了模型融合和时间序列特征的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

intro: Youtube-8M Challenge, 4th place
arxiv: https://arxiv.org/abs/1707.00803

贡献:
1.根据信息最丰富的内容出现在视频中间,提出了RNN变体-双向RNN。3.1.1
2.提出的VLAD聚合方法与RNN相比计算成本较低。3.1.2
3.证明了融合多个模型总是有帮助的。

摘要
本文介绍了我们为Google Cloud和YouTube-8M视频理解挑战赛开发的系统,可以将其视为在大规模YouTube-8M数据集[1]之上定义的多标签分类问题。 我们采用大量技术来汇总提供的帧级特征表示并生成视频级预测,包括递归神经网络(RNN)和广义VLAD的几种变体。我们还采用了几种融合策略来探索模型之间的互补性。 就官方指标GAP @ 20(全球平均精度为20)而言,我们最好的融合模型在公开的50%测试数据上达到0.84198,在公开的50%测试数据上达到0.84193,在全球650个团队中排名第四 竞赛。

1.介绍

与图像不同,视频不仅包含视觉信息,还包含听觉音轨。 而且,视频中的连续帧承载着丰富的运动和时间信息,这些信息几乎不能通过CNN预测在单个帧上捕获,因为CNN并不自然地处理顺序输入。 相反,递归神经网络(RNN)设计为执行顺序建模任务。结合在一起,CNN和RNN已被证明对视频分析有效[19,21]。
没有像ImageNet [6],FCVID [9]和ActivityNet [4]这样的大规

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值