单目深度估计(Monocular Depth Estimation)论文阅读 2021-01-15

最新推荐文章于 2025-07-11 09:49:42 发布

原创

最新推荐文章于 2025-07-11 09:49:42 发布 · 7.8k 阅读

44 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #深度学习

本文介绍了单目深度估计的无监督和有监督方法，重点关注数据集、网络模型和损失函数。讨论了包括基于多任务网络、GAN网络和其他方法在内的技术，并详细解析了几篇重要的学术论文，探讨了它们的创新点和应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

单目深度估计

问题公式化：求非线性映射函数

一、数据集：

NYU Depth：视频序列和dense depth map通过RGB-D采集的，但是不是每一种图像都有深度图，因为映射是离散的。

KITTI：计算机视觉中最大的数据集包括光流、视觉里程、深度、目标检测、语义分割、跟踪，有一部分是有稀疏的深度图来自LIDAR sensor。

Make3D:有image-depth pairs 没有视频序列和stereo images 适用于有监督任务和测试无监督网络。

Cityscapes:主要用于语义分割任务包含语义lable, 也包含一些stereo 视频序列但是没有深度图适合无监督深度估计。

二、无监督方法：

输入：序列或 stereo images

方法分类:

1.基于多任务网络：

利用深度图、位姿检测等重构目标图，再用源图进行监督学习，公式化如下：

整体网络： $f(I_{j},D_{i},E(j \to i)) \to \hat{I_{i}}$ , E是位姿检测或转换网络

光一致性监督：，再添加一些其他loss约束：如深度图光滑约束：

2.基于GAN网络：

同上类似，利用生成器重构目标图，再把判别器当作无监督loss 判断真假进行训练。

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

adzz

关注关注

7
点赞
踩
44

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【论文】单目深度估计：Unsupervised Monocular Depth Estimation with Left-Right Consistency

yuanCruise

06-01

4632

Unsupervised Monocular Depth Estimation with Left-Right Consistency 摘要不像之前的有监督的方法一样，利用深度图作为标签（GT），本文的方法用容易得到的双目图来训练。利用epipolar geometry constraints。我们通过训练我们的网络来产生视差图像，使其具有图像重建的损失。结果表明，仅对图像重建进行求解就...

单目深度估计论文阅读—《Deep Learning-Based Monocular Depth Estimation Methods—A State-of-the-Art Review》

weixin_45643547的博客

05-27

2114

单目深度估计论文阅读—《Deep Learning-Based Monocular Depth Estimation Methods—A State-of-the-Art Review》作为一个深度学习单目深度估计方向的小白，这是阅读的第一篇关于这方面的文章，写个文章记录一下学习过程，文章是英文的，记录一下文章大致内容1.摘要2.概述单目深度估计2.1解决方法2.3深度估计的主要数据集3.深度学习与单目深度估计3.1有监督方法3.2无监督方法3.3半监督方法4.评估标准5.讨论5.1基于性能的比较分析5.2

1 条评论您还未登录，请先登录后发表或查看评论

单目深度估计(Monocular Depth Estimation)之摄像机运动对深度估计的影响

weixin_30457465的博客

01-06

1141

转载请说明出处： http://blog.youkuaiyun.com/zhubaohua_bupt/article/details/54093689 最近利用单目相机在做三维重建相关的工作，下面总结一下摄像机运动对单目深度估计的影响。单目方法求取深度的一般流程是 1设定待求取区域 2根据帧间位姿和带有误差的深度计算像素在后来帧上的极线 3在极线上寻找匹配 4三角测量求出本次...

单目深度估计重大突破：无需标签，精度超越 SOTA！西湖大学团队提出多教师蒸馏新方案

最新发布

Coovally_AI的博客

07-11

901

近日，西湖大学AGI实验室联合浙江工业大学等单位，提出了一种全新的多教师蒸馏算法，仅靠2万张无标签图片，就显著提升了单目深度估计的精度，刷新了现有SOTA！未来，随着该方法的进一步优化，单目深度估计有望在更多智能系统中发挥基础性作用，尤其是在资源受限、数据稀缺但对三维理解要求高的任务中，展现更强大的生命力。多模型协同带来的互补信息，使得学生模型能够学习到更全面的深度表达，增强了泛化能力和鲁棒性，尤其在面对不规则、复杂、低质量图像时依然表现出色。学生模型在多个任务中甚至超过教师模型，展现出强大的学习能力。

单目深度估计思路

3D视觉工坊

11-11

878

点击上方“3D视觉工坊”，选择“星标”干货第一时间送达一、依靠深度学习和网络架构输出结果引用最多、最早的是Eigen组的两篇文章，相对于简单粗暴的使用卷积神经网络回归来得到结果，主要卖点...

Depth Anything——强大的单目深度估计模型

知来者逆的博客

08-03

4760

本研究引入了Depth Anything模型，该模型在稳健的单目深度估计方面展现了高度实用性。通过强调廉价且多样化的未标记图像的价值，并采用两种有效策略，即在学习未标记图像时设定更具挑战性的优化目标以及保留预训练模型的丰富语义先验，使得该模型在零样本深度估计方面表现出色。此外，该模型还可作为有望初始化下游度量深度估计和语义分割任务的有效工具。

m0_58969377的博客

04-22

1万+

一个是考虑人类深度感知的机制，另一个是包括各种深度学习方法。这篇论文是关于单目深度估计（Monocular Depth Estimation）的全面综述，由Vasileios Arampatzakis等人撰写。单目深度估计是指从二维图像中恢复三维场景的深度信息，这是一个在计算机视觉领域具有挑战性的问题。尽管已经有许多研究，但这个问题仍然是一个研究热点，因为它涉及到人类深度感知机制的理解以及深度学习技术的应用。引言：介绍了深度估计的重要性和应用领域，如图像分割、自主导航、机器人手术辅助、人体姿态估计等。

基于拉普拉斯金字塔深度残差的单目深度估计

05-30

【基于拉普拉斯金字塔深度残差的单目深度估计】是一种深度学习技术，主要用于从单个彩色图像中预测出对应的深度信息。随着深度神经网络（DNN）在图像处理领域的广泛应用，单目深度估计已经成为一个重要的研究方向。...

单目深度估计：UnsupervisedMonocular Depth Estimation with Left-Right Consistency论文及代码全解析

sinat_39389724的博客

05-13

1886

这篇无监督的单目深度方法在github上共收获了1.6k星。本文将主要讲解这篇文章的主要创新点，以及其torch版本的代码讲解。 ## **预备知识**

单目深度估计---Depth Anything论文详解

热门推荐

qq_44799766的博客

03-30

1万+

论文题目：Depth Anything: Unleashing the Power of Large-Scale—— 任何深度：释放大规模无标记数据的力量（注意论文名字，因为后续的很多工作都是在未标注数据上做的。作者认为Depth Anything是一种用于稳健单目深度估计的非常实用的解决方案。在不追求新颖的技术模块的情况下，作者目标建立一个简单而强大的基础模型（而且是Zero-shot）。为此，作者通过设计一个数据引擎来收集并自动标注大规模未标记数据（∼62M），从而扩大数据覆盖范围，来能够减少泛化误差。

monocular_depth_estimation:纽约大学数据集上的单眼深度估计

04-02

纽约大学数据集上的单眼深度估计该项目演示了一种单眼深度估计网络的开发，该网络是改编。

monocular-depth-estimation

05-04

深度估计的思维导图单眼深度估计 VIO DeepVIO：使用3D几何约束对单眼视觉惯性里程表进行自我监督的深度学习 DeepVO：用于单眼视觉测程的深度学习方法激光雷达 DeepLiDAR：基于稀疏LiDAR数据和单色图像的室外场景的深表面法向引导深度预测 Pseudo-LiDAR ++：自动驾驶中3D对象检测的准确深度 LiStereo：从LIDAR和立体影像生成密集深度图自我监督的稀疏到密集：LiDAR和单眼相机的自我监督深度完成基于RGB和LiDAR融合的3D语义分割用于自动驾驶 2020年不要忘记过去：单眼视频的深度估计 2019年用于自我监督单眼深度估计的3D包装纸单眼视频连接流量，深度和相机中具有几何约束的自我监督学习纸 SuperDepth：自我监督，超分辨的单眼深度估计纸卷积神经网络如何编码位置信息？纸单目视频的实例深度和运动学习纸神经网络

Python-MonoDepthPyTorchPyTorch无监督单目深度估计

08-11

MonoDepth-PyTorch - PyTorch无监督单目深度估计

单目深度估计

zxcqlf的博客

03-18

6116

基于深度学习的单目深度估计简介算法分类（按训练方式）有监督（Supervised methods）无监督（Unsupervised methods）半监督（Semi-supervised methods）发展趋势参考自单目深度估计综述文章：文章围绕单目深度估计的数据集、评估指标、相关工作（有监督，半监督以及无监督）等进行了简介和综述。简介对于自主系统，如自主机器人和无人车等，无论对周围环境......

【深度估计】单目深度估计

星辰不问

03-02

1万+

【深度估计】单目深度估计

单目深度估计论文(1）— Depth Map Prediction from a Single Image using a Multi-Scale Deep Network (NIPS 2014)

smallEngineer的博客

05-02

558

第一篇利用CNN进行单目深度估计的论文(有监督) [1] Eigen D, Puhrsch C, Fergus R. Depth map prediction from a single image using a multi-scale deep network[J]. Advances in neural information processing systems, 2014, 27.

单目深度估计综述： Monocular Depth Estimation survey

qq_24884193的博客

05-02

4999

深度估计很重要，sfm和mvs都是建立在多个视图的特征匹配的基础上，预测出来的深度图还很他妈稀疏，说实话从单个图像推出深度就是不适定的扯淡问题。但是没办法，话是要用深度学习搞啊，于是乎不同的网络结构，损失函数，训练策略都蹦出来了。基于几何的方法：说实话老方法还是靠谱的，基于几何方法用几何约束，从多张图片恢复出三维结构。 SFM是经典，它从几个2D图像恢复出3D结构，算出来位姿等一系列东西，确实经典无敌。每张图片上的特征点不多，很少，但是根据这些稀疏的特征点，利用双目几何推断出深度。所以质量好坏

单目深度估计论文(6）— Unsupervised learning of depth and ego-motion from video (CVPR 2017)

smallEngineer的博客

05-02

835

利用视频进行无监督单目深度估计 [1] Zhou T, Brown M, Snavely N, et al. Unsupervised learning of depth and ego-motion from video[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1851-1858.

Digging into Self-Supervised Monocular Depth Estimation论文复现

03-19

### 关于Self-Supervised Monocular Depth Estimation论文的复现方法与代码 #### 复现方法概述为了成功复现Self-Supervised Monocular Depth Estimation的相关工作，通常需要遵循以下几个方面的要求： 1. **数据准备** 自监督单目深度估计的核心在于利用未标注的数据进行训练。例如，《PackNet：3D Packing for Self-Supervised Monocular Depth Estimation》提到使用视频序列和相机运动信息作为输入[^2]。因此，可以选择公开可用的数据集如KITTI、Cityscapes或DDAD（如果适用），并确保数据预处理阶段能够提取连续帧及其对应的相机姿态。 2. **网络架构设计** 不同的论文采用了不同的网络结构来提升深度估计的效果。例如： - DIFFNet引入了高分辨率编码器，并通过注意力机制优化跳接连接[^1]。 - HR-Depth则专注于增强 shortcut 连接的质量以及采用 fSE 特征融合算子以更好地保留语义和空间信息[^4]。在实际复现时，可以根据目标需求选择合适的网络结构或者尝试结合多种技术特点。 3. **损失函数定义** 损失函数的设计对于自监督学习至关重要。常见的做法包括但不限于光度一致性损失 (photometric consistency loss)，几何正则化项等。特别值得注意的是，《Digging Into Self-Supervised Monocular Depth Estimation》一文中提到了几种改进措施——最小重投影损失、自适应遮罩损失及全分辨率多尺度采样方法，这些都可以显著改善最终结果[^3]。 4. **实验环境配置** 确保开发环境中安装有必要的依赖库版本匹配（比如PyTorch/TensorFlow）。同时也要注意硬件资源是否满足大规模神经网络训练的需求。 #### 示例代码片段以下是基于PyTorch框架的一个简单示例，展示如何构建基础版的自监督单目深度估计流程的一部分： ```python import torch import torch.nn as nn from torchvision import models class Encoder(nn.Module): def __init__(self): super(Encoder, self).__init__() resnet = models.resnet18(pretrained=True) layers = list(resnet.children())[:8] self.encoder = nn.Sequential(*layers) def forward(self, x): return self.encoder(x) class Decoder(nn.Module): def __init__(self): super(Decoder, self).__init__() # Define decoder architecture here... def forward(self, x): pass # Implement decoding logic def photometric_loss(img1_warped, img2): """Compute photometric reconstruction error.""" l1_loss = torch.abs(img1_warped - img2).mean() ssim_loss = SSIM()(img1_warped, img2).mean() # Assume an implemented SSIM function exists. total_loss = 0.85 * ssim_loss + 0.15 * l1_loss return total_loss # Instantiate encoder & decoder... encoder = Encoder().cuda() decoder = Decoder().cuda() # Example usage during training loop: for batch_data in dataloader: imgs, poses = batch_data['imgs'], batch_data['poses'] features = encoder(imgs.cuda()) depths_pred = decoder(features) # Predicted inverse depth maps. warped_img = warp_image(depths_pred, poses) # Function to perform warping based on predicted depths and camera poses. loss_value = photometric_loss(warped_img, target_img) optimizer.zero_grad() loss_value.backward() optimizer.step() ``` 上述代码仅为示意性质，具体实现还需参照原论文中的详细算法描述调整参数设定与功能模块。 --- ###