论文笔记 之 Every Frame Counts: Joint Learning of Video Segmentation and Optical Flow

1,本文解决的问题

问题1:
已有方法主要有两类:
    1,重用之前帧的特征,提高速度
    2,通过光流或序列模型来建模多帧,提高精度
这两种方法均牺牲了速度和精度中的一者,换取另一者。

通过光流研究语义特征空间的时间一致性。
将语义分割与光流估计联合起来。语义信息帮助提高遮挡区域的光流估计,非遮挡区域的光流为语义分割提供像素级别的时间关联,从而提高语义分割的光流一致性。这其实是利用了语义的空间一致性和光流的时间一致性来互相提高对方。

问题2:
已有的模型往往利用连续两帧的特征实现更好的语义分割,但现有的数据集往往只标注视频中一部分帧,所以这些方法只能利用数据集中很小的一部分。而且它们往往还需要额外的数据来预训练光流。

模型能够通过同时训练光流和语义分割,充分利用视频中标注和未标注的数据,这降低了对数据集的要求。这应该是第一个能够同时端到端的训练光流和视频语义的框架。

2,本文采用的策略:

其实本文还是属于利用帧间信息提高分割精度的一类。

本文通过精心设计的网络结构和误差方程,实现了同时训练光流和语义分割,并能够使两者相互促进。从而提高精度。另外本文的光流采用自监督训练(两帧图像互相warp,然后比较),所以能够利用没有标记的数据,降低了对数据集的要求。

3,本文模型的结构:

模型主要包含三部分网络:Shared encoder、Flow Branch(Flow decoder)、 Segmentation Branch(semantic decoder),如图FIgure2所示。
在这里插入图片描述

输入是两帧图像Ii和I

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值