深度估计学习笔记

博客涵盖了深度估计的多个方面,包括三维重建代码、深度图的可视化方法、Macs和FLOPs的计算以及深度图的存储格式。讨论了单目深度估计,特别是Adabins、GLPdepth和BTS等论文,以及Conformer和Swin Transformer的相关研究。还提到了数据增强技术如Vertical CutDepth和Split Flip,并介绍了用于训练的数据集——KITTI数据集。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

三维重建代码

https://github.com/rnlee1998/3D-Reconstruction-for-Monocular-Depth-Estimation
三维重建——RGBD生成点云

深度图可视化

plt.imsave(save_dir, img, cmap='PuBu')

其他可视化工具:cvkit

Macs和FLOPs计算

from ptflops import get_model_complexity_info    
kitti_macs, params = get_model_complexity_info(model, (3,352,1216), as_strings=True, print_per_layer_stat=True)
nyu_macs, params = get_model_complexity_info(model, (3,480,640), as_strings=True, print_per_layer_stat=True)
print('nyu macs:',nyu_macs,'kitti macs:',kitti_macs)

Macs大概是FLOPs的两倍

from torchsummaryX import summary
summary(model, input)

深度图存储格式

一般保存成uin16的png格式,可以用cv2.imwrite(),更高精度的可以保存为float,如tiff,exr等



单目深度估计

1 论文

BTS
《From Big to Small: Multi-Scale Local Planar Guidance for Monocular Depth Estimation》
paper:https://arxiv.org/abs/1907.10326
code:https://github.com/cleinc/bts

Adabins

《Adabins:Depth Estimation using Adaptive Bins》
将预测的深度区间离散化成N个bins,每个bin中心值代表这个区间的深度值,像素点的深度=所有bin深度的加权求和,权表示该像素点在当前bin下的概率值
paper:https://arxiv.org/abs/2011.14141
code:https://github.com/shariqfarooq123/AdaBins

GLPdepth

《Global-Local Path Networks for Monocular Depth Estimation with Vertical CutDepth》
1.沿用了BTS结构,将编码换成了mit_4;2.利用了Vertical CutDepth数据增强的方式
paper:https://arxiv.org/abs/2201.07436

2 相关论文

ViT

Conformer

《Conformer: Local Features Cou

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值