每天一篇论文 311/365UnOS: Unified Unsupervised Optical-flow and Stereo-depth Estimation by Watching Videos

提出UnOS,一种基于视频的统一无监督学习框架,用于光流和立体深度估计,通过几何一致性提升性能。设计了刚性感知直接视觉里程模块,改进相机运动估计。引入刚性和遮挡感知流一致性损失,优化CNN学习。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

UnOS: Unified Unsupervised Optical-flow and Stereo-depth Estimation by Watching Videos
Code
摘要

本文在文献[31]的基础上,利用卷积神经网络(CNN)固有的几何一致性,提出了UnOS,一个统一的无监督光流和立体深度估计系统。UnOS明显优于其他独立处理这两个任务的最新(SOTA)无监督方法。具体来说,给定视频中的两个连续立体图像对,UnOS使用三个平行cnn估计每像素立体深度图像、相机ego运动和光流。基于这些量,UnOS计算刚性光流,并将其与从流网络估计的光流进行比较,得到满足刚性场景假设的像素。然后,我们鼓励在刚性区域内两个估计流之间的几何一致性,并由此导出刚性感知直接视觉里程(RDVO)模块。我们还提出了刚性和阻塞感知的流一致性损失来学习UnOS。我们在流行的KITTI数据集上评估了4个相关任务的结果,即立体深度、光流、视觉里程和运动分割。

贡献

1.我们设计了一个统一的无监督光流和立体深度学习框架,称为“UnOS”,通过显式地鼓励它们与自动发现的刚性区域的几何一致性,从而在这两个任务中都产生SOTA性能。
2.我们设计了一个刚性感知直接视觉里程计(RDVO)模块,该模块使用光流匹配小心地处理刚性区域,从而产生更精确的摄像机运动估计。
3.我们在训练模式中加入了刚性和遮挡的特性,这对CNNs的学习是有效的。

方法

在这里插入图片描述

T-S,和L-R的像素图像上的转换规则

在这里插入图片描述

有遮挡的视角合成

在这里插入图片描述
在这里插入图片描述

非结构下直接VO
这点比较像动态SLAM在场景中将运动的非刚体运动点过滤,只用刚体运动的点进行匹配

在这里插入图片描述
在这里插入图片描述

结果

深度估计
在这里插入图片描述
2.里程计估计
在这里插入图片描述

光流深度估计

在这里插入图片描述

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值