2017-Aggregating Frame-level Features for Large-Scale Video classification聚合帧级功能以进行大规模视频分类

最新推荐文章于 2022-07-26 12:00:53 发布

半分热度

最新推荐文章于 2022-07-26 12:00:53 发布

阅读量651

点赞数

分类专栏：视频分类文章标签：计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_41956697/article/details/114253459

版权

本文详述了一种用于大规模视频分类的方法，通过在YouTube-8M数据集上使用RNN变体（如双向RNN）和VLAD聚合技术，以及融合策略，达到了全球平均精度@20的0.84198，取得挑战赛第4名。研究证明了模型融合和时间序列特征的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

intro: Youtube-8M Challenge, 4th place
arxiv: https://arxiv.org/abs/1707.00803

贡献：
1.根据信息最丰富的内容出现在视频中间，提出了RNN变体-双向RNN。3.1.1
2.提出的VLAD聚合方法与RNN相比计算成本较低。3.1.2
3.证明了融合多个模型总是有帮助的。

摘要
本文介绍了我们为Google Cloud和YouTube-8M视频理解挑战赛开发的系统，可以将其视为在大规模YouTube-8M数据集[1]之上定义的多标签分类问题。我们采用大量技术来汇总提供的帧级特征表示并生成视频级预测，包括递归神经网络（RNN）和广义VLAD的几种变体。我们还采用了几种融合策略来探索模型之间的互补性。就官方指标GAP @ 20（全球平均精度为20）而言，我们最好的融合模型在公开的50％测试数据上达到0.84198，在公开的50％测试数据上达到0.84193，在全球650个团队中排名第四竞赛。

1.介绍

与图像不同，视频不仅包含视觉信息，还包含听觉音轨。而且，视频中的连续帧承载着丰富的运动和时间信息，这些信息几乎不能通过CNN预测在单个帧上捕获，因为CNN并不自然地处理顺序输入。相反，递归神经网络（RNN）设计为执行顺序建模任务。结合在一起，CNN和RNN已被证明对视频分析有效[19，21]。
没有像ImageNet [6]，FCVID [9]和ActivityNet [4]这样的大规

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。