Learning from Monocular Videos 论文笔记(转)

参考:

0x01 目的和现状

原文: https://www.arxiv-vanity.com/papers/1811.06152/
源代码: https://github.com/tensorflow/models/tree/master/research/struct2depth

尽管已经做出了这么多努力,(目的)学习预测场景深度和自我运动仍然是一个持续的挑战,特别是在处理高动态场景和估计移动目标的适当深度时。
在这里插入图片描述
之前使用单目输入的研究无法提取移动目标,并将它们错误地映射到无穷远。

由于之前所做的无监督单目学习方面的研究没有对移动目标建模,因此可能对目标深度做出一致的错误估计,使目标深度映射到无限远。

作者提出了一种新方法,作者的目的:

  1. 模拟运动物体;
  2. 产生高质量的深度估计结果。
  3. 还提出了一种无缝的在线优化技术,可以进一步提高质量并应用于跨数据集的传输。

0x02 Structure

==
  本文方法中的一个关键思想是将结构引入了学习框架。也就是说,该方法不依赖神经网络直接学习深度,而是将单目场景视为由移动目标(包括机器人)组成的 3D 场景。
  
方法简介:
  本文实现的是对单目视频进行深度估计,将场景中相应的运动建模为独立变换(旋转和平移),然后用其对 3D 几何建模,并估计所有目标的运动。此外,知道哪些目标可能移动(例如,车辆、行人以及自行车等)有助于它们学习单独的运动矢量,即便这些目标可能是静态的。通过将场景分解为 3D 和单个目标,可以更好地学习场景中的深度和自我运动,尤其是在动态场景下。
Our method introduces 3D geometry structure during learning by modeling individual objects’ motions, ego-motionand scene depth in a principled way. Furthermore, a refinement approach adapts the model on the fly in an online fashion
作者在 KITTI 和 Cityscapes 的城市驾驶数据集上测试了这种方法,发现它的表现超过了当前最佳的方法,而且该方法的表现已经逼近用 stereo 对视频作为训练监督的方法的质量。
motion model 可以实现:

  1. 可以预测运动物体的目标的深度
  2. 可以对单个目标的运动向量进行估计

0x03 Transfer Across Domains

online refinement 可以实现:

  1. 可以更细节的显示物体的几何结构
  2. 可以实现数据集转移

在 Cityscapes 数据上训练并在 KITTI 数据上测试时进行在线改进。图像显示的是训练好的模型的深度预测,以及带有在线改进的训练好的模型的深度预测。带有在线改进功能的深度预测可以更好地概括场景中的目标。
在 Cityscapes 数据上训练并在 KITTI 数据上测试时进行在线改进。图像显示的是训练好的模型的深度预测,以及带有在线改进的训练好的模型的深度预测。带有在线改进功能的深度预测可以更好地概括场景中的目标。

0x04 Conclusion

==
  这项研究对来自单目摄像机的深度和自我运动进行了无监督学习,解决了高动态场景中的一些问题。它实现了高质量的深度值和自主运动结果,该结果的质量逼近stereo 的质量,还提出了在学习过程中结合结构的想法(不是很理解)。
  
  更值得注意的是,作者提出的将仅来自单目视频的深度值和自主运动的无监督学习和在线自适应相结合,是一个强大的概念。因为这样它不仅可以以无监督的方式从简单视频中进行学习,还可以轻松地转移到其它数据集。

原文链接:ai.googleblog.com/2018/11/a-structured-approach-to-unsupervised.html

### 回答1: Triangulation Learning Network (TLN) 是一个用于从单目图像到立体图像的三维物体检测的算法,其存在一些主要问题,包括: 1. 训练数据缺乏:TLN 算法需要大量的训练数据才能准确地预测三维物体的位置和姿态。但是,由于三维物体检测数据集的获取成本很高,因此当前可用的数据集相对较少,这可能会影响算法的性能。 2. 姿态估计不准确:TLN 算法依赖于对相机姿态的准确估计,但是在实际应用中,姿态估计可能会出现误差。这些误差可能会导致算法无法准确地确定物体的三维位置和姿态。 3. 光照和背景干扰:TLN 算法对光照和背景的变化敏感,这可能会对其检测性能产生负面影响。在不同光照条件和背景下进行测试时,算法可能会出现误报或漏报。 4. 计算复杂度高:TLN 算法需要进行复杂的三角测量和卷积计算,因此需要较高的计算资源。这可能会限制算法在实时应用中的使用。 总之,尽管TLN 算法在三维物体检测方面取得了一些进展,但是它仍然面临着一些挑战和限制,需要进一步研究和改进。 ### 回答2: Triangulation Learning Network (TLN) is a type of deep learning model used for monocular to stereo 3D object detection. However, there are several main problems that currently exist with this approach. 首先,monocular-based 3D object detection methods, including TLN, heavily rely on depth estimation from a single image. This poses a challenge because estimating accurate depth information from a monocular image is inherently difficult. Monocular depth estimation is an ill-posed problem, as there are multiple possible depth solutions for a single input image. Therefore, the quality of depth estimation directly affects the accuracy of 3D object detection, and the current performance of monocular-based methods is still limited due to inaccurate depth estimation. 其次,TLN relies on stereo vision to improve the accuracy of 3D object detection. However, stereo vision has its limitations as well. It requires the presence of two or more cameras with known spatial calibration, which can be expensive and cumbersome to implement in real-world scenarios. Moreover, in challenging environments with poor lighting conditions or occlusions, the accuracy of stereo vision-based methods can be significantly affected. 此外,TLN suffers from the problem of ambiguous depth inference. Even with accurate depth estimation, it is still challenging to determine the exact 3D position of an object. This is because an object can have multiple possible 3D positions that are consistent with the observed 2D image. It becomes even more complex when multiple objects overlap or occlude each other, leading to further ambiguities in 3D object detection results. 最后,TLN requires a large amount of training data to achieve satisfactory performance. Collecting and annotating such data, especially for stereo 3D object detection, can be time-consuming, costly, and error-prone. This limits the scalability and practicality of TLN, as acquiring a diverse and representative dataset for training can be challenging. In summary, the main problems currently existing with Triangulation Learning Network (TLN) for monocular to stereo 3D object detection are inaccurate depth estimation, limitations of stereo vision, ambiguous depth inference, and the requirement for a large amount of training data. Addressing these challenges is essential for improving the accuracy, robustness, and practicality of TLN-based 3D object detection methods. ### 回答3: 目前Triangulation Learning Network: from Monocular to Stereo 3D Object Detection存在以下主要问题: 1. 数据需求高:从单目到立体的3D物体检测需要更多的数据支持。单目图像中的物体深度信息是模糊的,缺乏对立体视觉中物体准确深度的直接观测。因此,为了训练Triangulation Learning Network,需要大量的立体图像数据集,这样的数据集很难获得且成本较高。 2. 精度限制:尽管Triangulation Learning Network提供了改善单目到立体3D物体检测的方法,但其精度仍然受到一些限制。由于立体视觉中的散射和遮挡问题,物体表面的纹理信息可能会受到影响并导致深度估计的误差。此外,图像中物体的姿态和形状也会对准确的深度估计产生影响。 3. 依赖立体匹配:Triangulation Learning Network的核心思想是通过使用立体图像中的匹配点将单目图像的深度信息换为立体深度。然而,立体匹配本身是一个复杂和计算密集的任务,尤其在具有高度纹理变化或遮挡的场景中,可能存在匹配错误的情况。 4. 硬件要求高:Triangulation Learning Network需要用于获取立体图像的专门的硬件设备,如立体相机或深度相机。这些硬件设备的成本较高,因此部署这种方法可能会面临一定的技术和经济挑战。 综上所述,尽管Triangulation Learning Network提供了一种从单目到立体的3D物体检测方法,但仍然存在着数据需求高、精度限制、依赖立体匹配和硬件要求高等问题。随着技术的进步,相信这些问题将逐渐得到解决,从而更好地推动Triangulation Learning Network的发展和应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值