代码开源:http://cs.nyu.edu/~deigen/dnl/
摘要中说,这篇文章是一石三鸟,深度预测,表面估计和语义分析,同样的网络结构的三个应用。。。
网络结构
这个算法结构比较有意思,首先根据整张图片进行粗提取一个全局的输出预测,整个结构是取自于[8],不过创新就是1,更深了,2,又加了一个尺度,输出尺寸是输入的一半。3.多通道特征,而不是将特征由1传递到2(是因为concat嘛?有点densenet的意思~貌似是个挺不错的结构~),再细看算法结构:
结构说明得很清楚,看几个细节,stage2和stage3的尺寸不变的,也就是stride为1,基本上通道数和kernel也不变。stage1主要是为了finetune AlexNet与VGG才会变得如此奇怪。upsample应该是双线性插值。
接下来逐一分析:
scale 1:全图像视角:
scale1出来的就是整个图像区域的粗特征预测。它总共有两种,一种AlexNet,一种是VGG。这个呢,看代码也是直接使用VGG的结果,后面文中讲这种提取粗特征对于图片有了一个全局的掌握,因此视野比较宽阔,因为是全局视野。
scale 2:预测
比上文的特征粗提取网络的视角虽然狭窄了(代码着重看下视