论文阅读《UCS-Net: Deep Stereo using Adaptive Thin Volume Representation with Uncertainty Awareness》

CV科研随想录

已于 2023-12-25 14:26:08 修改

阅读量1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： CV顶会(刊)论文阅读文章标签：计算机视觉深度学习神经网络

于 2022-04-06 21:42:55 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_40957452/article/details/123984224

CV顶会(刊)论文阅读专栏收录该内容

63 篇文章

订阅专栏

本文提出了一种基于自适应分辨率代价体的深度预测模型，通过多阶段精细化深度图来实现高分辨率的深度估计。模型利用上一层像素预测的不确定性构建深度假设空间，有效提高了计算效率。采用3DCNN处理代价体，并通过方差估计不确定性，构建自适应AVT层。实验结果显示，该方法能够逐步细化深度图，提高深度预测的精度和细节表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文地址：https://arxiv.org/abs/1911.12012v1
源码地址：https://github.com/touristCheng/UCSNet

背景

现有的模型都是基于固定大小的深度假设空间进行深度值搜索，这种方法很难得到高分辨率的深度图，本文提出一种基于自适应分辨率代价体的深度预测方法，每层的深度假设空间是由上一层的像素预测的不确定性来得到；该模型主要分为三个部分：

基于平行窗口的代价体用于预测低分辨率的初始深度图；
使用两层ATV（adaptive thin volumes）来不断精细化深度图，得到更高分辨率的深度图，AVT 模块构建的深度假设空间只包含较少的深度层，可以得到较高的计算效率；
使用基于方差的不确定性预估方式来构建自适应AVT层；

模型架构

请添加图片描述
对于参考图像 $I_1\in R^{H\times W}$ 与 $N - 1$ 张源图像　 $\{I_i\}_{i=2}^N\in R^{H\times W}$ ，先使用2D CNN提取三个尺度特征图；深度图预测通过三个阶段实现，利用多尺度图像特征预测多分辨率深度图。在三个尺度上都建立了匹配代价体，并使用3D CNN对代价提处理得到概率体，最后基于期望的形式回归得到深度图；为了实现高效的空间划分（紧凑的深度假设空间建立），利用上一个阶段的深度预测的不确定性来构造这一个阶段的自适应代价体；

多尺度特征提取

使用权值共享的 U-Net 结构提取多尺度特征，得到输入图像的特征金字塔： $F_{i,1}\in R^{\frac{1}{4}H\times \frac{1}{4}W\times 32}, F_{i,2}\in R^{\frac{1}{2}H\times \frac{1}{2}W\times 16}, F_{i, 3}\in R^{H\times W\times 8}$ ；

代价体构建

将源视图的特征图根据相机参数warp回参考视图构建深度假设空间；单应性矩阵如式１所示：
$H_i (d) = K_i [R_i , t_i ]^{−1} [R_1 , t_1 ]K_1 \tag1$
用 $L_{k,j}(x)$ 表示第ｋ个stage的深度值为第ｊ层，像素点ｘ的深度值； $D_k$ 代表第Ｋ个stage的深度假设层的层数，对于第一层，基于平行窗口的形式构建深度假设层： $L_{1, j}(x)=d_j$ ，其中 $d_j$ 从 $d_{min}, d_{max}]$ 均匀采样而来， ${d_j\}_{j=1}^{D_1}$ ，然后使用 $H_i (d)$ 来将源视图中的特征warp到参考视图，与MVS-Net相同，基于方差的形式构建代价体；对于第stage2与stage3，文中使用上一层的深度图预测不确定性来构建本层的自适应假设空间；

不确定性估计与自适应深度假设空间

在每个stage，都使用 3D Ｕ-Net结构来对代价体处理，推断多视图像素间的匹配关系和预测深度概率分布，然后使用softmax得到概率体 $P_{k, j}$ ，最后基于期望的形式计算深度图如式２所示：
$\hat{\mathbf{L}}_{k}(x)=\sum_{j=1}^{D_{k}} \mathbf{L}_{k, j}(x) \cdot \mathbf{P}_{k, j}(x)\tag2$

对于概率体 $P$ ，使用分布的方差来进行不确定性估计，并使用估计结果构建下一层的AVT，深度分布的方差计算方式如式３所示：
$\hat{\mathbf{V}}_{k}(x)=\sum_{j=1}^{D_{k}} \mathbf{P}_{k, j}(x) \cdot\left(\mathbf{L}_{k, j}(x)-\hat{\mathbf{L}}_{k}(x)\right)^{2}\tag3$
其中 $\mathbf{L}_{k, j}$ 为深度假设值， $\hat{\mathbf{L}}_{k}(x)$ 为深度预测值，标准差为 $\hat{\sigma}_{k}(x)=\sqrt{\hat{\mathbf{V}}_{k}}$ ，给定 $x$ 点的深度预测值 $\hat{\mathbf{L}}_{k}(x)$ 与方差 $\hat{\sigma}_{k}(x)^2$ ，使用一个基于方差的置信区间来衡量预测的不确定性如式４所示：
$\mathbf{C}_{k}(x)=\left[\hat{\mathbf{L}}_{k}(x)-\lambda \hat{\sigma}_{k}(x), \hat{\mathbf{L}}_{k}(x)+\lambda \hat{\sigma}_{k}(x)\right]\tag4$
其中 $\lambda$ 是一个用来决定区间长度的参数；对于每个在stage k 的像素点 $x$ ，从 $C_k$ 的区间中均匀采样 $D_{k+1}$ 个深度值作为　stage k+1 的深度假设层： $L_{k+1, 1}(x)，L_{k+1, 2}(x)，...，L_{k+1, D_{k+1}}(x)$

$C_{k}(x)$ 代表了 $\hat{\mathbf{L}}_{k}(x)$ 的不确定性，这也决定了AVT中深度范围，上阶段的预测确定性越高，这一阶段的深度假设值间隔就越小（可以预测更细节的信息），在端对端的训练过程中不断优化区间．
在这里插入图片描述

从粗糙到精细的预测

本文在多个阶段不断精细化预测的深度图，文中每个stage的深度假设空间的层数为： $D_1=160，D_2=16，D_3=8$ ．ATVs的尺寸为： $\frac{W}{4}\times \frac{H}{4}\times 160，\frac{W}{２}\times \frac{H}{２}\times 16，H\times W\times 160$ ，由于最后两个尺度拥有较小层数的深度假设层，可以节省显存空间，提高了模型的运算效率．