论文笔记：DuLa-Net(CVPR 2019)-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_29598161/article/details/109753261

本文介绍DuLa-Net网络，用于从单RGB全景图估计房间布局。它使用等距全景图和透视天花板图，提出2分支特征融合方法，对多角度复杂布局房间效果好。文中阐述网络结构、布局估计步骤和实验结果，指出其进步与局限，并给出发展建议。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DuLa-Net: A Dual-Projection Network for Estimating Room Layouts from a Single RGB Panorama (CVPR 2019)

pdf下载项目地址
使用等距全景图和透视天花板图，各自一个encode-decoder分支，提出新颖的2分支特征融合方法。对于多角度复杂布局的房间效果较好。

2021 4.1 update

原作者没提供训练代码，借鉴layout训练代码，为dula-net增加了训练代码
fork地址：https://github.com/zhigangjiang/DuLa-Net

在这里插入图片描述

主要贡献

提出在2个视图上进行2分支端到端学习，最后2分支进行特征融合。
NN直接输出二维平面图的概率图。后处理比较少。
引入Realtor360数据集，包含多角点的复杂房间布局。

网络结构

在这里插入图片描述

输入图片是等距柱状投影图(Equirectangular projection)，预处理使用PanoContext进行垂直矫正。主要思想就是搜索直线，使其对齐全局坐标系。

天花板视图：摄像机看向上方，Fov取160，包含天花板墙线
地板视图：摄像机看向下方，Fov取160，包含地板板墙线
全局视图：摄像机看前看Fov取360，包含天花板墙线和地板墙线

E2P得到的就是天花板视图，2个分支：

全景图分支预测floor-ceiling proba- bility map和height
天花板视图得到天花板墙线，但是作为floor plan probability map
融合：floor-ceiling proba- bility map + floor plan probability map，在2D上曼哈顿假设，3个概率图进行加权平均。最后通过预测的房间高度恢复3D布局。

E2P(类似得到6面图的顶面)

UV坐标表示：
$\left(p_{x}^{\prime}, p_{y}^{\prime}\right),-1 \leq p_{x}^{\prime} \leq 1,-1 \leq p_{y}^{\prime} \leq 1$

和球面坐标对应关系：
$\left(p_{x}^{\prime}, p_{y}^{\prime}\right)=\left(\frac{\arctan _{2}\left(\frac{s_{x}}{s_{z}}\right)}{\pi}, \frac{\arcsin \left(s_{y}\right)}{0.5 \pi}\right)$

这是右手坐标系，y轴查下，z+轴对应全景图左边x=-1和右边x=1，z-轴对应全景图中间x=0处
如果要取天花板视图，在y=-1处截取。

网络结构

Encoder

在这里插入图片描述

基于ResNet-18的两个分支：
$E_{B_{P}}$ 输入：全景图 $512 \times 1024 \times 3$ ，输出 $16 \times 32 \times 512$

$E_{B_{C}}$ 输入：天花板透视图(使用E2P，Fov=160) $512 \times 512 \times 3$ ，输出： $16 \times 16 \times 512$

作者尝试ResNet-50，效果没有改善。

Decoder

在这里插入图片描述

由6个卷积层，前5个是 3 × 3 resize convolutions，最后一个是 3 × 3 regular convolution。为了推理高度，在 $B_P$ 的中间特征出添加3个全连接层。 $E_{B_{P}}$ 的输出是 $16 \times 32 \times 512$ ，应用verage pooling得到512维输入全连接。为了增加robust，全连接后2层使用了dropout。最后输出的就是 $M_{F C}$ ，floor-ceiling proba- bility map。 $B_C$ 输出 $M_{F P}$ ，floor plan probability map 。

需要注意的是 $B_P$ 也输出了height，通过 $M_{F C}$ 可以估算平均高度。

Feature fusion

使用特征融合可以提升准确度，作者认为对于 $B_C$ 分支，再靠近边缘的地方扭曲会非常严重，影响精度。特征融合时在 $B_P$ 和 $B_C$ 的前5个卷积层：
$f_{B_{C}}^{*}=f_{B_{C}}+\frac{\alpha}{\beta^{i}} \times f_{B_{P}}, i \in\{0,1,2,3,4\}$
其中， $f_{B_{C}}$ 是 $B_P$ 特征做了E2P后输出。 $\alpha$ 和 $\beta$ 是衰减系数。

Loss function

$L=E_{b}\left(M_{F C}, M_{F C}^{*}\right)+E_{b}\left(M_{F P}, M_{F P}^{*}\right)+\gamma E_{L 1}\left(H, H^{*}\right)$

其中，带星号是真实值。

概率图使用二分类交叉熵损失：
$E_{b}\left(x, x^{*}\right)=-\sum_{i} x_{i}^{*} \log \left(x_{i}\right)+\left(1-x_{i}^{*}\right) \log \left(1-x_{i}\right)$

高度使用L1损失：
$E_{L 1}\left(x, x^{*}\right)=\sum_{i}\left|x_{i}-x_{i}^{*}\right|$

布局估计

在这里插入图片描述

主要分为2步骤

使用概率图估计2D曼哈顿平面图

假设相机到地面高度固定为1.6m，那么相机到天花板的距离为 $H - 1.6$ ，由此可以得到 $M_{F C}^{F}$ 和 $M_{F C}^{C}$ 的比例为： $1.6 / (H - 1.6)$

最终融合3个概率图：
$M_{F P}^{f u s e}=0.5 * M_{F P}+0.25 * M_{F C}^{C}+0.25 * M_{F C}^{F}$

融合后的概率图进行二值化，阈值取0.5，取最大连通分量。
取连通分量的外轮廓使用 Douglas-Peucker 算法简化轮廓，得到简化边界后的二值图像b。
我们对边缘进行回归分析，并将它们聚成轴对齐的水平和垂直直线。这些直线划分成网格，图像c，单单元格的填充面积>0.5时合并到平面图形状里，图像d。