Depth Map Prediction from a Single Image using a Multi-Scale Deep Network

该论文提出一种新方法,使用深度网络从单张图像估计深度信息。首先通过全局网络预测整体结构,再利用局部网络进行优化。全局网络包含全连接层,捕捉全局信息,局部网络则对粗略预测进行细化,提高细节准确性。训练中采用尺度不变性误差,确保预测对全局尺度不敏感。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这篇了论文中,我们提出了一种估计单张图片深度信息的新方法:使用神经网络对深度进行递归。分为两个步骤:首先估计出场景的整体结构,然后使用局部信息进行优化。这个网络使用。

3.1

模型结构

我们的网络由两个栈组成。如下图。

一个粗尺度网络首先在全局上对场景深度进行预测。然后通过使用细尺度网络进行局部区域的优化。两个部分都使用了原图像进行输入。但是粗尺度网络的输出,是通过细尺寸网络作为附加的第一层特征图像。通过这种方法,这个局部网络能编辑全局的预测,用来更好的和finer-scale details进行对应。


全局粗尺度网络

粗尺度网络的任务是使用场景的全局视角来预测整体深度图结构。网络的上几层是全连接层,因此可以包括整张图片的信息。同样的,底层和中间几层被设计通过最大池化操作降到一个小的空间维度,来连接图像不同部分。这样做了之后,这个网络能够整合整个场景全局的理解来预测深度。这样的针对全图的理解在单张图片中是需要的,因为这样可以有效地利用诸如消失点、物体位置、空间对齐等线索。局部线索(通常立体匹配)很难注意到这些重要的特征。

如上图所示,全局粗尺度网络包括了五个卷积、最大池化层,随后是两个全连接层。图中也描述了特征图和输出图的尺寸。最后的输出的尺寸是原图像素的1/4尺寸。相应的,一个中心的裁剪包括大多数的输入(我们待会儿会说到这个事情,我们在精细网络的第一层转化图像的时候,损失了图像边界的区域。)

注意输出的空间维数大于最高的卷积特征图。在通过网络预测之前,不是限制特征图尺寸的输出,而是依赖于硬编码上采样,我们允许顶层全连接层通过更大的区域来学习模板。这些是模糊的,但是将比上采样输出的8*6的预测更好。尤其是我们允许网络根据特征学习它自己的上采样。输出如下图所示。

所有的隐藏层用校正线性单元来激活(rectified linear units),随着第7层的线性的粗掠输出。dropout应用于隐藏在第6层后的全连接层。粗尺度网络卷积层(1-5)预先使用I

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值