Deep Feature Flow for Video Recognition
Abstract
作者提出了一种快速准确的视频识别框架—深度特征流。它只在稀疏的关键帧上运行代价较高的卷积子网络,并通过流场将它们的深度特征映射传播到其他帧。
Introduction
深度特征流是一种快速、准确、通用的端到端视频识别框架。大量的实验验证了其在视频目标检测和语义分割任务上的有效性。与逐帧评估相比,在稀疏关键帧上应用图像识别网络,通过流场将深度特征映射从关键帧传播到其他帧,这实现了高达 10 倍的实时帧率,精度仅损失几个百分点。高性能为实际应用中的视频识别任务提供了方便。
图 1 卷积特征映射在两个相邻的帧上是相似的。它们可以通过流场从关键帧廉价地传播到当前帧
Related Work
作者提出的方法有几个方面与前人的某些研究有关。深度学习在图像识别任务上取得了成功;网络加速的方法;视频分析中的光流分析;视觉任务中大量使用光流信息等。虽然这些方法提高了识别精度,但大大增加了计算成本。
Deep Feature Flow
给定一个图像识别任务和一个前馈卷积中性网络 N,将 N 分为两个连续子网,第一个子网是全卷积的特征网络,第二个子网是具有任务特定结构的任务网络,并在特征映射上执行识别任务。DFF 可以很容易的使用所有帧,只要帧 li 被注释。
图 2 使用逐帧网络评估和提出深度特征流的视频识别示意
Network Architectures
作者采用了基于 CNN 的 FlowNet 架构和两种较低复杂度的变体 FlowNet Half 和 FlowNet Inception 来执行相关视觉任务,进而对其进行评估。
Experiments
Experiment Setup
作者分别将 DFF 用在了 citycape(城市街景片段)数据集以及 ImageNet VID 数据集。
Evaluation Methodology and Results
特征网络使用 ResNet-101 模型,流网络默认 FlowNet,分别应用在上述两个数据集上,结果表明 DFF 方法具有最佳的综合性能。同时,作者改变流量网络、特征网络和关键帧持续时间来研究 Accuracy-Speedup 权衡以及 N 网络的分裂点应该在哪分裂的问题。
Future Work
作者将设计更快速、更精确的流量网络以及一个更好的调度程序进行关键帧调度。