【深度学习论文笔记】Depth Map Prediction from a Single Image using a Multi-Scale Deep Network

最新推荐文章于 2025-10-27 18:15:52 发布

原创最新推荐文章于 2025-10-27 18:15:52 发布 · 1.3w 阅读

CC 4.0 BY-SA版权

9 篇文章

订阅专栏

9 篇文章

订阅专栏

本文探讨了一种使用卷积神经网络（CNN）进行单张图像深度估计的方法，相较于传统的双目摄像头技术，该方法通过设计多尺度网络结构和引入新的损失函数，实现了图像到深度图像的高效映射。主要创新在于多尺度网络设计和损失函数的改进，旨在同时降低平均误差和像素级误差。

阅读时间：2015.04.26
论文源：NIPS2014
作者及单位： David Eigen deigen@cs.nyu.edu
Christian Puhrsch cpuhrsch@nyu.edu
Rob Fergus fergus@cs.nyu.edu
纽约大学

主要内容：通过CNN来进行对单张图片进行深度估计，单张图片进行深度信息估计做的人比较少，一般是用双目摄像头做的。在这里，作者把CNN当作一个黑盒来看待，用CNN来直接学习图像到它的深度图像信息的映射。

其它的没有了，看这篇文章主要是因为我目前做的也是用图像来做回归，看看它这边的损失函数有什么新的东西没有。

这边解析一下它的网络结构：

两个层次的结构，第一个网络是由一个除粒度的网络结构，其输入是304 $\times$ 228 大小的图片，而它的输出，则是原图像大小的1/16 左右，这个可以指定，因为它就是设计的全连接层的维度。通过ground true图像就可以训练这样网络了。
第二个网络结构是细粒度的网络，但是它也是作用在原输入图像上面，并且第二层卷积层会加上第一个网络的输出。第二个网络没有全连接层，是属于全卷积网络。

损失函数，同时也是对其结果的评价标准，这是文章的第二个创新点，其损失函数为：其中，
第二项 $\alpha$ 表示平均的误差项，第一项的前面部分表示每个像素之间的误差项，把第二项加到第一项中做为整体，可以使得同时满足平均误差小同时每个像素的误差也小，相当于一个惩罚项。

1 条评论

柒月whu 2016.08.22
博主你好，请问粗粒度层的输出是怎么加到细粒度层中的第二卷积层的呢？用MatConvNet不知道怎么实现呢？本人深度学习新手，特来请教，谢谢！

zlchilam 2015.09.09
I wanna ask a silly question: the y in the paper is notated as a predicted depth score in the depth map, which showed in the size of 74*55; and y* is the ground truth. but ground truth's size is assumed as origin 304*228 ? I can't relate the two one on one.
- RiweiChen回复zlchilam 2015.09.12
  [reply]zlchilam[/reply] I think we can think that ground truth's size have been resize to the predicted size.