论文笔记 之 Every Frame Counts: Joint Learning of Video Segmentation and Optical Flow)
1,本文解决的问题
问题1:
已有方法主要有两类:
1,重用之前帧的特征,提高速度
2,通过光流或序列模型来建模多帧,提高精度
这两种方法均牺牲了速度和精度中的一者,换取另一者。
通过光流研究语义特征空间的时间一致性。
将语义分割与光流估计联合起来。语义信息帮助提高遮挡区域的光流估计,非遮挡区域的光流为语义分割提供像素级别的时间关联,从而提高语义分割的光流一致性。这其实是利用了语义的空间一致性和光流的时间一致性来互相提高对方。
问题2:
已有的模型往往利用连续两帧的特征实现更好的语义分割,但现有的数据集往往只标注视频中一部分帧,所以这些方法只能利用数据集中很小的一部分。而且它们往往还需要额外的数据来预训练光流。
模型能够通过同时训练光流和语义分割,充分利用视频中标注和未标注的数据,这降低了对数据集的要求。这应该是第一个能够同时端到端的训练光流和视频语义的框架。
2,本文采用的策略:
其实本文还是属于利用帧间信息提高分割精度的一类。
本文通过精心设计的网络结构和误差方程,实现了同时训练光流和语义分割,并能够使两者相互促进。从而提高精度。另外本文的光流采用自监督训练(两帧图像互相warp,然后比较),所以能够利用没有标记的数据,降低了对数据集的要求。
3,本文模型的结构:
模型主要包含三部分网络:Shared encoder、Flow Branch(Flow decoder)、 Segmentation Branch(semantic decoder),如图FIgure2所示。

输入是两帧图像Ii和I

最低0.47元/天 解锁文章
2970

被折叠的 条评论
为什么被折叠?



