论文阅读《Spherical Space Feature Decomposition for Guided Depth Map Super-Resolution》-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_40957452/article/details/135173705

论文地址：https://openaccess.thecvf.com/content/ICCV2023/papers/Zhao_Spherical_Space_Feature_Decomposition_for_Guided_Depth_Map_Super-Resolution_ICCV_2023_paper.pdf
源码地址： https://github.com/Zhaozixiang1228/GDSR-SSDNet

概述

GDSR是一种多模态图像处理的热门话题，它的目的是利用同一场景中的高分辨率（HR）RGB图像中的额外信息来放大低分辨率（LR）深度图。这个任务的关键步骤是有效地提取RGB/深度特征中的域共享和域独有信息。此外，还需要解决三个细节问题，即模糊的边缘，噪声的表面和RGB纹理伪影。为了解决这些问题，文中提出了一种球形空间特征分解网络（SSDNet）。为了更好地建模跨模态特征，使用基于Restormer块的RGB/深度编码器来提取局部-全局特征。然后，将提取的特征映射到球形空间，完成域私有特征的分离和共享特征的对齐。RGB的共享特征与深度特征融合，完成GDSR任务。接下来，作者提出了一个球形对比优化（SCR）模块，进一步解决细节问题。将根据不完美类别分类的小块输入到SCR模块，通过对比学习，将小块特征拉近到真实样本，推远到不完美样本。广泛的实验表明，该方法在四个测试数据集上达到了最先进的结果，同时也能成功地推广到真实场景。

模型架构

在这里插入图片描述
下文使用 $\begin{aligned}D_{LR}\in\mathbb{R}^{h\times w},D_{HR}\in\mathbb{R}^{H\times W}\end{aligned}, \begin{aligned}R\in\mathbb{R}^{H\times W\times3}\end{aligned}$ 来分别表示地分辨率深度图，RGB图像与高分辨率深度图。其中 ${H,W\} 与\{h,w\}$ 分别代表RGB图像与低分辨率深度图的尺寸。SSDNet包含四个模块：图像与深度图的编码器，图像与深度图的解码器，球形对比细化模块，分别用 $\mathcal{E}_{\mathcal{R}}(\cdot),\mathcal{E}_{\mathcal{D}}(\cdot), \mathcal{D}_\mathcal{R}(\cdot),\mathcal{D}_\mathcal{D}(\cdot), \mathcal{S}(\cdot)$ 来表示。如图2所示，使用 $ $\mathcal{E}_{\mathcal{R}}(\cdot),\mathcal{E}_{\mathcal{D}}(\cdot)$ 分别提取特征，然后将特征映射到球形空间实现特征的分离与对齐。接着将深度特征与RGB共享特征送入 $\mathcal{D}_\mathcal{D}(\cdot)$ 得到重建深度图。RGB特征送入 $\mathcal{D}_\mathcal{R}(\cdot)$ 得到重建的RGB图。最后将重建的深度图送入 SRC模块进行细节信息的精细化，得到最后的输出深度图 $D_{HR}$ 。
SSD特征提取模块是基于Restormer块实现的，该模块可以利用特征维度上的自注意力机制从高分辨率的输入图像中提取全局特征。这种方法使得跨模态的浅层特征的提取不需要增加太多的计算开销。

Spherical space transform

如图2d所示，作者定义了一种基于黎曼几何的欧式空间特征到球形空间特征映射方法， $\mathcal{LOG}(\cdot)\operatorname{与}\mathcal{EXP}(\cdot)$ ：
定义1（球形指数映射）：球形指数映射的思想是给定一个欧氏空间中的向量 $v$ ，可以在球形空间中找到一个点 $x$ ，使得 $v$ 是从球形空间的北极点 $N$ 到 $x$ 的切向量。这样，我们就建立了欧氏空间和球形空间之间的一一对应关系。给定欧式空间的 $d$ 维的特征向量 $v$ , 定义一个 $d + 1$ 维的向量 $\bar{v}=(v, r)$ ,其中 $r$ 为球形空间的半径（超参数），球形指数映射 $\exp_{N}:T_{N}\mathbb{S}_{r}^{d+1}\rightarrow\mathbb{S}_{r}^{d+1}$ 可以定义为：
$\exp_N(v)=N\cos\theta+\bar{v}\frac{\sin\theta}\theta,\tag{1}$
其中 $\mathbb{S}_{r}^{d+1}=\{x\in\mathbb{R}^{d+1}:\|x\|=r\}\subset\mathbb{R}^{d+1}$ 为 $d$ 维的球形空间， $N=(0,\cdots,0,r)\in\mathbb{S}_{r}^{d+1}$ 为是球形空间的北极点。 $\theta=\frac{\|\bar{v}\|}r$ 是一个角度，它表示欧氏空间中的向量 $\bar{v}$ 与切空间中的向量 $(v, r)$ 的夹角，它等于 $\bar{v}$ 的模长与半径 $r$ 的比值，用来描述欧氏空间和球形空间之间的映射关系。 $T_{N}\mathbb{S}_{r}^{d+1}=\{(v,r):v\in \mathbb{R}^d\}$ 为 $\mathbb{S}_{r}^{d+1}$ 的切线空间。 $\mathcal{E}\mathcal{X}\mathcal{P}:\mathbb{R}^{h^{\prime}\times w^{\prime}\times d}\to\mathbb{R}^{h^{\prime}\times w^{\prime}\times(d+1)}$ :
$\mathcal{EXP}(\Phi)[i,j,:]=\exp_N(\Phi[i,j,:])\tag{2}$
其中 $Φ [i, j, :]$ 是 $Φ$ 中位置为 $(i, j)$ 的特征向量， $Φ^′[i, j, :]$ 是 $Φ^′$ 中位置为 $(i, j)$ 的特征向量， $exp_N (·)$ 是球形指数映射的函数，它可以将一个欧氏空间中的向量映射到一个球形空间中的点。
定义2（球形对数映射）： $\mathcal{LOG}:\mathbb{R}^{h^{\prime}\times w^{\prime}\times(d+1)}\to\mathbb{R}^{h^{\prime}\times w^{\prime}\times d}$ 球形对数映射的思想是，给定一个球形空间中的点 $x$ ，可以在欧氏空间中找到一个向量 $v$ ，使得 $v$ 是从球形空间的北极点 $N$ 到 $x$ 的切向量。这样，就建立了球形空间和欧氏空间之间的一一对应关系。给定球形空间的特征 $x\in\mathbb{S}_r^{d+1}, \|x\|=r$ ,球形对数映射 $\log_{N}:\mathbb{S}_{r}^{d+1}\to T_{N}\mathbb{S}_{r}^{d+1}$ 定义为：
$\log_N(x)=\frac\psi{\sin\psi}(x-N\cos\psi),\tag{3}$
其中 $N=(0,\cdots,0,r)\in\mathbb{S}_{r}^{d+1}$ 为球形空间的北极点。 $\psi=\operatorname{argcos}(N^Tx/r^2)$ 。这个公式的意义是，首先计算 $x$ 与 $N$ 的夹角 $ψ$ ，然后沿着 $N$ 和 $x$ 的方向旋转一个角度 $ψ$ ，得到切空间上的向量 $v$ 。这个向量 $v$ 就是 $x$ 的球形对数映射的结果:
$\mathcal{LOG}(\Phi)[i,j,:]=\mathcal{H}\left(\log_N(\Phi[i,j,:])\right),\tag{4}$
其中， $\mathcal{H}:T_N\mathbb{S}_r^{d+1}\to\mathbb{R}^d$ 由 $\mathcal{H}((v,r))=v$ 所定义。
定义3（球形空间距离）：给定两个球形空间中的特征图 $\Phi_{1},\Phi_{2}\in\mathbb{R}^{h^{\prime}\times w^{\prime}\times(d+1)}$ 且 $\|\Phi_1[i,j,:]\|=\|\Phi_2[i,j,:]\|=r$ 。它们之间的距离 $S \{Φ_1, Φ_2\}$ 定义如下：
$\mathcal{S}\left\{\Phi_1,\Phi_2\right\}=\sum_{i=1}^{h^{\prime}}\sum_{j=1}^{w^{\prime}}1-\frac1{r^2}\Phi_1[i,j,:]^T\Phi_2[i,j,:].\tag{5}$
球形空间距离的思想是，给定两个球形空间中的特征图 $Φ_1$ 和 $Φ_2$ ，它们的大小都是 $h \times w$ ，每个像素点都是一个 $d + 1$ 维的向量，可以计算它们之间的相似度，即它们的每个像素点的余弦相似度的平均值，然后用1减去这个相似度，得到它们之间的距离。

Encoder

以深度图分支为例，使用一个3×3的卷积层，将深度图像转换为一个浅层的特征图 $Φ^{(0)}_D$ ，继而使用 $P$ 个Restormer块，对特征图进行逐层的特征提取。用 $R^{(p)}_D$ 表示第 $p$ 个Restormer块，其中 $p = 1,\cdot\cdot\cdot, P$ 。每个Restormer块的输入是上一层的特征图 $Φ^{(p−1)}_D$ 。在第 $p$ 层，低分辨率的深度图像经过Restormer块，得到一个初步的特征图 $\tilde{\Phi}_D^{(p)}$ ，特征图包含一些共享的特征和一些私有的特征，共享的特征是指跨模态的信息，比如深度图像和RGB图像的边缘和轮廓，私有的特征是指各自模态的特征，比如深度图像的距离信息和RGB图像的纹理信息。为了实现特征的分离和对齐，不妨假设特征图的前一半通道是共享的特征，后一半通道是私有的特征，然后将特征图 $\tilde{\Phi}_D^{(p)}$ 经过球形指数函数 $\mathcal{E}\mathcal{X}\mathcal{P}(\cdot)$ 映射到球形空间中计算特征分解损失（后面介绍，在球形空间中，使用球形空间距离来度量特征图之间的相似度，球形空间距离是一种不受尺度影响的距离度量，它可以更容易地实现特征的分离和对齐。该损失用于优化特征图在球形空间中的距离，使得共享的特征更加相似，私有的特征更加不相关）后使用球形对数映射 $\mathcal{LOG}(\cdot)$ 将特征映射回原始特征空间得 $\Phi_D^{(p)}$ ，作为下一个Reformer块的输入。第 $p$ 层特征提取过程为：
$\begin{aligned} \tilde{\Phi}_{D}^{(p)}& =\mathcal{R}_{D}^{(p)}\left(\Phi_{D}^{(p-1)}\right) \\ \tilde{\Phi}_{D,(p)}^{align}& =\tilde{\Phi}_{D}^{(p)}\left[0:\frac{dim}{2}\right],\tilde{\Phi}_{D,(p)}^{sepn}=\tilde{\Phi}_{D}^{(p)}\left[\frac{dim}{2}:dim\right] \\ \Phi_{D,(p)}^{align}& =\mathcal{LOG}\left(\mathcal{E}\mathcal{XP}\left(\tilde{\Phi}_{D,(p)}^{align}\right)\right) \\ \Phi_{D,(p)}^{sepn}& =\mathcal{LOG}\left(\mathcal{E}\mathcal{XP}\left(\tilde{\Phi}_{D,(p)}^{sepn}\right)\right) \\ \Phi_{D}^{(p)}& =Cat\left(\Phi_{D,(p)}^{align},\Phi_{D,(p)}^{sepn}\right) \end{aligned}\tag{6}$
其中 $\{\tilde{\Phi}_{D,(p)}^{align},\tilde{\Phi}_{D,(p)}^{sepn}\}$ 与 $\{\Phi_{D,(p)}^{align},\Phi_{D,(p)}^{sepn}\}$ 为计算了特征分解损失后的对齐与分离特征。整个特征提取模块可以表示为：
$\Phi_{D}=\mathcal{E}_{D}\left(D_{LR}\right),\Phi_{R}=\mathcal{E}_{R}\left(R\right),\tag{7}$
其中， $\Phi_{D}$ 与 $\Phi_{R}$ 是 $\Phi_D^{(P)}$ 与 $\Phi_R^{(P)}$ 的简写，然后 $\Phi_{D}$ 与 $\Phi_{R}$ 被送入解码器中。

Decoder

从encoder中得到了特征 $Φ_D$ 和 $Φ_R$ ，分别包含了 $d im /2$ 个通道的共享信息和 $d im /2$ 个通道的私有信息。考虑到对于高分辨率深度重建任务有帮助的特征是完整的深度特征 $Φ_D$ 和共享的RGB特征 $Φ^{sepn}_R$ 。因此，将 $Φ_D$ 和 $Φ^{sepn}_R$ 在通道维度上进行拼接，然后输入到 $D_D$ 中，得到重建的深度图 $\hat{D}_{HR}$ ，同时将 $Φ_R$ 输入到 $D_R$ 中，得到重建的RGB图 $\hat{R}$ ，即:
$\hat{D}_{HR}=\mathcal{D}_{\mathcal{D}}\left(Cat\big(\Phi_D,\Phi_R\left[0\colon\frac{dim}2\right]\big)\right),\hat{R}=\mathcal{D}_{\mathcal{R}}\left(\Phi_R\right).\tag{8}$

Spherical Contrast Refinement module

为了解决边缘模糊、表面噪声和过度转移的RGB纹理等存在的问题，该模块旨在使用对比学习框架，通过在球形特征空间中拉近正样本和推远负样本的距离，来调整深度图的特征，如图2c所示。

Defect patches classifier

使用了人工合成的“不完美图像数据集”，它包含了四种不同的扰动类型：噪声、模糊、纹理过度转移。这些扰动是通过对训练集中的真实深度图的局部图块进行不同的处理来生成的。例如，对于一个 $m \times m$ 的图块，可以添加随机噪声、高斯模糊或者同位置的RGB图像来模拟不同的扰动。没有处理的图块则被认为是完美的。然后基于ResNet34的网络结构设计了分类器用于缺陷类别分类。

Positive and negative samples

从公式8的解码器中得到高分辨率的深度图 $D^{HR}$ 后，将其随机裁剪为 $m\times m$ 块 $\hat{D}_{HR}^{pat}$ 。然后将其送入缺陷分类模块中得到每个块的缺陷类型。然后类似于不完美数据集的操作，将标签深度图 $D_{HR}$ 转换为不完美深度图 $\tilde{D}_{HR}$ 。继而将 $\tilde{D}_{HR}$ 随机分为 $N$ 个 $m\times m$ 个 $\tilde{D}_{HR}^{pat}$ 块（与 $\hat{D}_{HR}^{pat}$ 都是随机切分,两者切分位置不一致），将 $\{\hat{D}_{HR}^{pat}, \tilde{D}_{HR}^{pat}\}$ 作为负样本对；然后参考 $\hat{D}_{HR}$ 的切分位置，从原始的标签视差图上切分出对应的 $D^{pat}_{HR}$ ，与 $\hat{D}_{HR}^{pat}$ 组成正样本对 $\{\hat{D}_{HR}^{pat}, D_{HR}^{pat}\}$ 。如图2c部分所示，第 k 个正样本、锚点和负样本分别用 $µ_k^+、µ_k 和 µ_k^−$ 表示。

Spherical contrast refinement

获取了正负样本对之后，将其送入视差编码器 $\mathcal{E}_{D}$ 并计算对比细化损失 $\mathcal{L}_{SCR}$ :
$\mathcal{L}_{SCR}=\sum_{k=1}^K\frac{\mathcal{S}\left\{\mathcal{E}_D\left(\mu_k\right),\mathcal{E}_D\left(\mu_k\right.^+\right)\}}{\sum_{n=1}^N\mathcal{S}\left\{\mathcal{E}_D\left(\mu_k\right),\mathcal{E}_D\left(\mu_k\right.^{n-}\right)\}},\tag{9}$
其中 $\mathcal{S}\left\{\cdot,\cdot\right\}$ 为公式3所定义的球形空间距离计算函数。 $µ_k^{n-}$ 是第 $n$ 个缺陷深度图块 $µ_k^{-}$ 的负样本，它们是通过分类器从 $\mathcal{E}_D$ 的输出中选择的。通过梯度下降来最小化 $µ_k$ 和 $µ_k^+$ 特征之间的距离，最大化 $µ_k$ 和 $µ_k^-$ 特征之间的距离。这个过程对 $\mathcal{E}_D$ 进行了微调。但是由于 SCR 模块增加了训练成本，每隔几次迭代就将它加入到常规网络训练过程中，以平衡训练效率和效果。

损失函数

损失函数包含：深度图重建损失 $\mathcal{L}_{pixel}^D$ , RGB图像重建误差 $\mathcal{L}_{pixel}^R$ , 特征分解损失 $\mathcal{L}_{pixel}$ 与球形相对细化损失 $\mathcal{L}_{SCR}$
$\mathcal{L}_{pixel}^D$ 保证了SSDNet输出的估计深度图DˆHR与真实深度图DHR尽可能接近，从而提高深度图超分辨率的效果。 $\mathcal{L}_{pixel}^R$ 保证了输出的重建RGB图 $\hat{R}$ 与输入的RGB图 $R$ 尽可能接近，从而保证RGB图中的语义信息能够参与到共享RGB特征中，而不是简单地生成一些随机噪声来逼近深度特征，满足特征分解的要求。
$\mathcal{L}_{pixel}^{D}=\sum_{k=1}^{K}\lVert\hat{D}_{HR}^{(k)}-D_{HR}^{(k)}\rVert_{2}^{2},\mathcal{L}_{pixel}^{R}=\sum_{k=1}^{K}\lVert\hat{R}^{(k)}-R^{(k)}\rVert_{2}^{2}.\tag{10}$
使用对齐损失来提高共享特征之间的一致性，并使用分离损失降低私有特征的相似度：
$\mathcal{L}_{dec}=\mathcal{L}_{align}-(1-\mathcal{L}_{sepn})^2,\tag{11}$
其中， $\mathcal{L}_{sepn}=\sum_{p=1}^{P}\mathcal{S}\left\{\Phi_{D,(p)}^{sepn},\Phi_{R,(p)}^{sepn}\right\},\mathcal{L}_{align}=\sum_{p=1}^{P}\mathcal{S}\left\{\Phi_{D,(p)}^{align},\Phi_{R,(p)}^{align}\right\}.$
球面距离可以反映两个点之间的相对差异，而不受它们的绝对大小或比例的影响。欧几里得距离则容易受到这些因素的影响，导致距离的计算不准确或不合理。
总的损失：
$\mathcal{L}_{total}=\mathcal{L}_{pixel}^{D}+\alpha_{1}\mathcal{L}_{pixel}^{R}+\alpha_{2}\mathcal{L}_{dec}+\alpha_{3}\mathcal{L}_{SCR}.\tag{12}$