引:本文更关注context信息简化多阶段学习提升视差细节,首先,提出一阶段网络CP-RPN来做视差估计,接着,用多任务,EdgeStereo用mid-level特征来修复视差中丢失的细节。边缘检测与视差估计将会互相促进
1.介绍
以往的方法有很多局限性:1.接受域限制。2.使用后处理导致速度很慢。
1)困难无纹理区域较难理解。
2)多阶段网络效率很低
3)计算很复杂
3 Approach
先介绍原始的CP-RPN,接着介绍端到端多任务的EdgeStereo,包括HED网络以及CP-RPN与HED之间的关系
3.1 CP-RPN
三部分:
local stereo volume extraction 提取成本向量
context pyramid 内容金字塔
2-D编解码(残差金字塔)
local stereo volume extraction 提取成本向量
就是VGG的conv1_1至conv3端,左右共享权重,在ImageNet上面预训练,随后1dcorrelation与dispnet-C类似。细节不阐述。个人觉得这个特征提取的过于长了,不知道速度如何
Context Pyramid
我们的网络内容尺度应该是多尺度的,如果是单尺度,尺度过小,则很多连续的视差将会变得不连续以及出现断层。尺度过大,那么小物体以及一些细节信息将会丢失。
再比如,如果只考虑了全局先验,视差图将会过于平滑没有一些精细的细节,比如像素层大的梯度跳跃将难以反映到视差的跳跃上。因此,我们应当结合局部先验与多尺度的文本线索。
何为接受域的尺度,就是我们利用文本的程度大小。随后,这些多尺度得到的结果是conca