Predicting Depth, Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional Archit

代码开源:http://cs.nyu.edu/~deigen/dnl/

摘要中说,这篇文章是一石三鸟,深度预测,表面估计和语义分析,同样的网络结构的三个应用。。。

网络结构


这个算法结构比较有意思,首先根据整张图片进行粗提取一个全局的输出预测,整个结构是取自于[8],不过创新就是1,更深了,2,又加了一个尺度,输出尺寸是输入的一半。3.多通道特征,而不是将特征由1传递到2(是因为concat嘛?有点densenet的意思~貌似是个挺不错的结构~),再细看算法结构:


结构说明得很清楚,看几个细节,stage2和stage3的尺寸不变的,也就是stride为1,基本上通道数和kernel也不变。stage1主要是为了finetune AlexNet与VGG才会变得如此奇怪。upsample应该是双线性插值。

接下来逐一分析:

scale 1:全图像视角:


scale1出来的就是整个图像区域的粗特征预测。它总共有两种,一种AlexNet,一种是VGG。这个呢,看代码也是直接使用VGG的结果,后面文中讲这种提取粗特征对于图片有了一个全局的掌握,因此视野比较宽阔,因为是全局视野。

scale 2:预测


比上文的特征粗提取网络的视角虽然狭窄了(代码着重看下视

评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值