intro: Youtube-8M Challenge, 4th place
arxiv: https://arxiv.org/abs/1707.00803
贡献:
1.根据信息最丰富的内容出现在视频中间,提出了RNN变体-双向RNN。3.1.1
2.提出的VLAD聚合方法与RNN相比计算成本较低。3.1.2
3.证明了融合多个模型总是有帮助的。
摘要
本文介绍了我们为Google Cloud和YouTube-8M视频理解挑战赛开发的系统,可以将其视为在大规模YouTube-8M数据集[1]之上定义的多标签分类问题。 我们采用大量技术来汇总提供的帧级特征表示并生成视频级预测,包括递归神经网络(RNN)和广义VLAD的几种变体。我们还采用了几种融合策略来探索模型之间的互补性。 就官方指标GAP @ 20(全球平均精度为20)而言,我们最好的融合模型在公开的50%测试数据上达到0.84198,在公开的50%测试数据上达到0.84193,在全球650个团队中排名第四 竞赛。
1.介绍
与图像不同,视频不仅包含视觉信息,还包含听觉音轨。 而且,视频中的连续帧承载着丰富的运动和时间信息,这些信息几乎不能通过CNN预测在单个帧上捕获,因为CNN并不自然地处理顺序输入。 相反,递归神经网络(RNN)设计为执行顺序建模任务。结合在一起,CNN和RNN已被证明对视频分析有效[19,21]。
没有像ImageNet [6],FCVID [9]和ActivityNet [4]这样的大规