论文笔记之 Every Frame Counts: Joint Learning of Video Segmentation and Optical Flow

最新推荐文章于 2021-09-13 16:21:45 发布

原创

最新推荐文章于 2021-09-13 16:21:45 发布 · 1.4k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

论文笔记之 Every Frame Counts: Joint Learning of Video Segmentation and Optical Flow）

1，本文解决的问题

问题1：
已有方法主要有两类：
1，重用之前帧的特征，提高速度
2，通过光流或序列模型来建模多帧，提高精度
这两种方法均牺牲了速度和精度中的一者，换取另一者。

通过光流研究语义特征空间的时间一致性。
将语义分割与光流估计联合起来。语义信息帮助提高遮挡区域的光流估计，非遮挡区域的光流为语义分割提供像素级别的时间关联，从而提高语义分割的光流一致性。这其实是利用了语义的空间一致性和光流的时间一致性来互相提高对方。

问题2：
已有的模型往往利用连续两帧的特征实现更好的语义分割，但现有的数据集往往只标注视频中一部分帧，所以这些方法只能利用数据集中很小的一部分。而且它们往往还需要额外的数据来预训练光流。

模型能够通过同时训练光流和语义分割，充分利用视频中标注和未标注的数据，这降低了对数据集的要求。这应该是第一个能够同时端到端的训练光流和视频语义的框架。

2，本文采用的策略：

其实本文还是属于利用帧间信息提高分割精度的一类。

本文通过精心设计的网络结构和误差方程，实现了同时训练光流和语义分割，并能够使两者相互促进。从而提高精度。另外本文的光流采用自监督训练(两帧图像互相warp，然后比较)，所以能够利用没有标记的数据，降低了对数据集的要求。

3，本文模型的结构：

模型主要包含三部分网络：Shared encoder、Flow Branch(Flow decoder)、 Segmentation Branch(semantic decoder)，如图FIgure2所示。
在这里插入图片描述

输入是两帧图像I_i和I

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。