video semantic segmentation
第一篇、Deep Feature Flow for Video Recognition(DFF)(2017)
提出问题:快速准确的视频识别对于自动驾驶和视频监控等高价值场景至关重要。 然而,将现有的图像识别网络应用于单个视频帧会导致大多数应用无法承受的计算成本。
解决问题:在这项工作中,我们介绍了深度特征流,这是一种快速准确的视频识别方法。 它在稀疏关键帧上应用图像识别网络。 它通过光流将深度特征图从关键帧传播到其他帧。
使用方法:光流法
整体网络训练策略:
1)采用随机梯度下降SGD,在每个batch,将一个关键帧k 和 随机非关键帧 i 进行匹配,其中0<=i - k<=9,(比如cityscapes是第20帧标注的视频,每个视频总共有30帧,那么我们需要取出第20帧到29帧)进行训练。求损失的时候还是用标签和输出特征图进行criterion计算
(但是我有一点不明白,非关键帧没有标签图怎么求损失?????)
2)我们在光流网络的最后输出中额外添加一些通道作为比例场输出(比例场用来正则化由于遮挡引起的光流传播误差。)
3)这里解决了我对第一点的疑惑:特征从帧k 到帧i 的传播是通过这个函数进行的,M是预测的光流场,S是预测出来比例场,假设非关键帧有标签,那么在损失反向传播的过程中,我们可以对帧i的损失求梯度,
,在这一项中包含了k帧的特征项,可以看出,对于每一个非关键帧的损失,即使没有标签图,他们的损失也是可以通过求关键帧的损失求得的,所以文章才说,在以前没有使用光流的时候,训练视频图像,进行逐帧训练只能使用带注释的帧,而DFF可以轻松使用所有帧,只要对其中某一帧i进行了注释。 换句话说,即便使用稀疏的关键帧注释,DFF也可以充分使用数据。 这对于许多视频识别任务可能是有益的。