通过实例感知学习动态场景 Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection Consistency

本文提出了一种端到端的深度学习方法,通过实例分割和光流解决动态场景中单目深度估计的问题。关键贡献包括神经正向投影模块、实例感知的光度与几何一致性损失以及视频实例分割的自动标注。该方法在KITTI和Cityscapes上表现出色,针对运动物体的深度和运动估计提供了改进的解决方案。

通过实例感知学习动态场景中的单目深度 Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection Consistency

0 摘要

亮点:提出正反向投影的重要性,采用现有的分割方法建立了一个基于视频的实例分割方法,提出了一个对于运动物体的光度损失和几何一致性损失方法。早先处理运动物体的方式有,掩膜SGDepth,光流Optical flow以及场景流Scene flow等。本文是光流加掩膜。铁锅炖ing。。。咋没人做场景流呢 (-.-)

  提出了一个端到端的联合训练框架,贡献有以下三个方面。

  1. 强调了运动物体正向投影和反向投影的区别,使用正向投影模块提出了在几何上正确的投影通道。
  2. 建立了一个统一的实力感知光度和几何一致性,对背景和目标区域添加自监督信号。
  3. 提出一个自动标注方案,使用现成的实例分割和光流模型来生成自动标注。
      在KITTI 和Cityscapes上进行训练,效果突出。

1 介绍

  3D环境结构和动态运动对象的只是对于自主导航是必不可少的。因为它含蓄的表达了物体的相对位置。3D场景还被用于提高高级别场景理解任务的性能。为了安全驾驶,我们不光要考虑场景的三维结构,还需要考虑运动物体的相对运动和行进方向。
  深度神经网络的最新进展导致越来越多的人关注单目深度估计(单目,立体和光流)。这些监督的方法需要大量和广泛的训练数据与地面真值标签。最近的研究在从未标记的图像序列中能够得到可信的无监督深度估计和自我运动估计。这些工作利用优化框架利用网络预测单视图深度和姿态,利用序列图像的合成视图作为监督信号。但是,

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值