《S2R-DepthNet：Learning a Generalizable Depth-specific Structural Representation》论文笔记

最新推荐文章于 2024-09-25 07:53:56 发布

原创最新推荐文章于 2024-09-25 07:53:56 发布 · 2k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#S2R-DepthNet

Depth Estimation 专栏收录该内容

44 篇文章

订阅专栏

S2R-DepthNet利用结构提取模块(STE)和深度特定注意力模块(DSA)从图像中学习深度相关的结构表示，以增强深度估计的泛化能力。方法包括STE的style-domain和structure-domain分解，通过DSA去除无关信息。经过多阶段训练，该模型在无真实数据的情况下也能取得良好效果，尤其适用于跨域深度估计。

参考代码：

官方：S2R-DepthNet，~~但是2021-0607通过该入口无法进入了，后续再观察。~~ 2021-0613恢复访问
未知版本：S2R-DepthNet

1. 概述

导读：这篇文章经过分析人对场景的3D感知，发现场景中的空间结构信息在深度感知中扮演了至关重要的作用。因而文章首先学习得到一个针对深度的结构表达，这个表达中抓住了深度估计中的关键信息，排除一些数据中无关的风格信息。这样使得深度网络着力关注场景的结构信息，使得即使在合成数据场景训练的模型也具有良好的泛化能力。文章方法的组成可以划分为下面的3个部分：
1）用于提取结构信息的STE（structure extraction）模块，它通过将图像进行分解得到domain-invariant的结构信息，以及与数据自身相关的domain-specific风格信息；
2）通过DSA（Depth-specific attention）模块构建一个上面STE结构图的attention map，再与之相乘从而进一步提纯STE模块得到结构图；
3）使用DP（depth prediction）模块在结构特征表达的基础上实现深度估计；
由于文章的方法使用结构信息作为深度估计的参考，因而在没有相应真实数据加入的情况下也取得了很好的效果，对深度估计任务来说是个很好的参考idea。

现有自监督和监督的深度估计方法都对深度信息的domain存在依赖，而且使用合成的数据简单进行深度回归会存在domain-transfer的问题，这就导致了其使用存在一定的局限性。而在这篇文章中抓住了图像中的结构信息，从而在此基础上进行深度估计，可以说是抓住了图像中的关键信息。
在这里插入图片描述
文章的方法首先会使用STE模块将输入的图像进行分解得到两个分量：stype-domain和structure-domain。这里的style-domain是不需要的，后者才是对深度估计有用的，可以见图1的第二列。但是structure-domain中也存在depth-specific和depth-irrelevant的两个分量。对此文章提出了DSA模块用于去产生一个attention map从而进一步对结构信息进行抑制和过滤，从而只剩下depth-specific的信息用于深度估计，见图1的第三列。

2. 方法设计

2.1 pipline

文章方法的整体pipeline见下图所示：
在这里插入图片描述
按照之前讲述的过程可以将上的pipeline划分为：STE（ $\mathcal{S}$ ）/DSA（ $\mathcal{A}$ ）/DP（ $\mathcal{P}$ ）三个部分。对应的文章也将整体的训练过程划分为三个阶段：

1）训练STE模块中的编码器模块 $\epsilon_s$ ，使用风格迁移网络的训练方式使得其对不同风格的图片通用化，这里涉及到的是image-to-image的迁移（参考：MUNIT: Multimodal UNsupervised Image-to-image Translation，code：MUNIT）;
2）在训练好编码器模块 $\epsilon_s$ 之后（之后都不再更新其中的参数）与STE中的解码器 $D_s$ ，以及 $\mathcal{P}$ 进行深度估计（这里并没有使用 $\mathcal{A}$ ）；
3）将 $\mathcal{A}$ 加入近来与 $\mathcal{P}$ 进行深度估计，这里不更新模块 $\epsilon_s$ 和 $D_s$ 中的参数；

对于这篇文章的解读可以参考：CVPR 2021 | 神经网络如何进行深度估计？

2.2 训练的过程

step1: 编码器 $\epsilon_s$ 的训练
这里编码器是在PBN（painter by number）数据与合成数据（用于训练深度vKITTI）通过迁移学习的方式使得可以编码器对不同风格的图片具有通用性。这里具体的训练过程文章没有给出，提到的supplemental material也没有找见，通过上面的解读文章可以大体看一下它训练的结构：
在这里插入图片描述
step2：STE和DP部分的训练
这里固化编码器 $\epsilon_s$ 部分的参数，之后通过合成数据训练解码器 $D_s$ 和DP部分的参数，使用的损失函数为：
$L_{\mathcal{S}}=\sum_p||\hat{D}(p)-D(p)||_1+\lambda\sum_p||M_s(p)||_1\cdot e^{-\beta(|\nabla_xD(p)+\nabla_yD(p)|)}$
其中， $\hat{D}$ 是深度预测结果， $p$ 是像素索引， $\nabla_x,\nabla_y$ 是求取水平和垂直方向的梯度， $\lambda,\beta$ 是超参数， $M_s$ 是STE模块输出的结构图（structure map）。
在这里插入图片描述
step3：DSA和DP的训练
这里固定STE模块中的参数，之后使用DSA模块生成的attention map对上文中的structure map（ $M_a$ ）进行优化，也就是下面element-wise相乘的形式：
$M_{sa}=M_s\otimes M_a$
之后使用合成数据集更新参数：
$L_{\mathcal{A}}=\sum_p||\hat{D}(p)-D(p)||_1$

文章的各个模块对最后性能的贡献度，见下面的消融实验结果（baseline为单纯DP模块）：
在这里插入图片描述

3. 实验结果

KITTI数据集上的表现：
在这里插入图片描述
NYU Depth v2数据集上的表现：

8 条评论

我是一个对称矩阵 2022.04.16
博主您好，请问文中多次出现的"domain"和"domain-"该如何去理解呢？
- 我是一个对称矩阵回复m_buddy 2022.04.19
  好的谢谢
- m_buddy回复我是一个对称矩阵 2022.04.19
  domain-invariant是与图像风格无关的分量，domain-specific是与图像风格特异性相关的分量，domain-transfer是风格域迁移

lfy_0_0_0_0 2021.11.19
您好，謝謝您的分享。請教一下，如果想获取有雾图像的深度信息，不知道是否有针对这样问题的论文呢？恳请指教。
- m_buddy回复lfy_0_0_0_0 2021.11.22
  你好，这样case的场景我目前没有看到过，可以上arxiv搜索

m0_51754514 2021.06.21
问下作者复现过这篇文章了吗
- weixin_44914075回复m0_51754514 2022.07.14
  兄台，这篇文章代码你复现了吗？我一直跑不起来，出现的问题是.pth文件有问题，用的是作者提供的文件
- m_buddy回复m0_51754514 2021.06.23
  没有，对应代码已经开源你可以去看看