论文笔记： Monocular Object Orientation Estimation using Riemannian Regression and Classification Network

最新推荐文章于 2021-11-25 10:54:18 发布

WillerW

最新推荐文章于 2021-11-25 10:54:18 发布

阅读量420

点赞数

分类专栏：论文笔记文章标签： CNN 位姿旋转量视角回归

本文链接：https://blog.youkuaiyun.com/wumo1556/article/details/89715627

版权

论文笔记专栏收录该内容

9 篇文章

订阅专栏

文章聚焦从单目图像中用CNN预测刚体目标朝向，即相机位姿旋转部分。分析现有基于CNNs的单目目标位姿估计方法的不足，提出使用旋转向量和四元数输出、设计Bin&Delta模型及3D数据增强方式，在Pascal3D+实验中部分模型表现良好。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这篇文章做的是从单目图像中使用CNN预测刚体目标的朝向。所谓朝向其实就是相机位姿中旋转部分，即目标在相机坐标系中旋转。

之前也有过这种想法，将目标的检测中的anchor机制引入到旋转量的估计中。将2D旋转空间分为若干个关键位置，给定一张输入图片先预测最近的关键位置，再预测一个在该关键位置上的偏移量，得到最终的旋转量的估计。这样做的方法既可以避免了建立离散图像检索库造成的离散问题，也可以一定程度上解决直接回归旋转量的不稳定性问题。

这篇文章程度上实现了这种想法，并对这种方法的各种变种进行了实验和分析，很有借鉴意义。

文章题目中的黎曼其实只是旋转量的一种度量方式，也就是常用的李群表示的旋转量，李代数表示旋转增量，李代数到李群的指数映射，有一些摄影测量基础和机器人学基础不难理解这一点，其实并不是很高大上。

Introduction

现有工作

基于CNNs的单目目标位姿估计大体上可以分为以下几类：

间接法：先在图像检测得到目标上已知三维坐标的关键点，先建立2D-3D对应关系，然后使用PnP方法求解位姿
直接法：又可以分为回归与分类。分类法中将朝向空间离散化，打上标签，预测每个输出图像的标签；回归法中每个训练样本都对应一个旋转量的表示，例如四元数、欧拉角等，以此训练CNN。

这篇文章关注的重点是直接法。现有工作的缺点是使用的旋转量的表示方法以及损失函数没有考虑到旋转空间的几何特性。 基于分类的方法需要将旋转空间离散化，导致误差不可能为0。其次当bins比较粗糙时，误差会更大。基于回归方法的问题是旋转量的欧拉角表示方法忽略了旋转空间中测地距离（geodesic distance），另一个问题是对预测的旋转量缺少一个置信度评价。
现有方法的另外一个问题是网络的结构与训练方法并不是为旋转量估计设计的，例如数据增强方法等。

文章贡献

使用旋转向量和四元数作为网络是输出，使用测地线距离设计损失函数；
设计了一种旋转量分类和回归框架，称为 $Bin\: \&\: Delta$ 模型，其中 $B i n$ 解决旋转量分为问题， $D e l t a$ 解决旋转量到分类中离散点的回归问题；
设计了一种3D数据增强方式，3D pose jittering；
在Pascal3D+上的实验得到了state-of-the-art的表现。

3D旋转

表示形式

欧拉角、旋转角、四元数

3D旋转空间中的损失函数

测地线距离：

$d(R_1,R_2) = \frac{\|\mathrm{logm}(R_1R_2^T) \|_F}{\sqrt 2}$
该距离实际上旋转向量的夹角，另外一种计算方式为：

$d(R_1,R_2) =| \cos^{-1}\left[\frac{tr(R_1^TR_2) - 1}{2}\right]|$

用于旋转估计的测地回归

网络结构

网络分为特征提取和朝向估计两部分， $f=\Phi_F(x;W_F)$ 和 $y=\Phi_P(f;W_P)$ 。使用旋转角 $y\in\mathbb{R}^3$ 表示旋转量，对于四元数，需要添加一个单位化约束。

损失函数

旋转角表示：
$\mathcal{L}_R(y_1, y_2) = d(R_1, R_2)$
其中 $R_i=\exp(y_i)$ ，值得注意的是测地距离 $\mathcal{L}_R(y_1, y_2)$ 并不等于 $\mathcal{L}_E(y_1, y_2)=\|y_1-y_2\|_2^2$
四元数表示：
$d(q_1, q_2) = 2\cos^{-1}(|c|), \mathrm{where}\quad (c, s) = q_1^{-1}\cdot q_2$
也可以表示成：
$\\mathcal{L}_R(q_1, q_2)=2\cos^{-1}(|\langle q_1, q_2\rangle|)$

测地线回归模型：

$\mathcal{R}_G: \min_W\frac{1}{N}\sum\mathcal{L}_R(y_n^*, y_n)$

BaseLines

选择了两种常见的网络作为baseline。

欧式回归模型
$\mathcal{E}_G: \min_W\frac{1}{N}\sum\|R(y_n^*, y_n)\|_2^2$
分类模型
从位姿空间中选择 $K$ 个关键位姿 $\{z_k\in \mathbb{R}^3\}_{k=1}^K$ ，应的label为 $l\in \{1, \dots, K\}$ 。
训练时，采用欧式距离度量，对每个样本 $y^*_n$ ，训练时标签真值为：
$l^*_n= \mathrm{argmin}_k\|y^*_n-z_k\|_2$
测试时，对网络输出的标签 $l_n$ ，其旋转量为 $y_n=z_{l_n}$

用于旋转估计的混合分类-回归网络

文章指出了纯回归方法难以对具有对称性质的目标类别的多模态姿态分布进行建模，一个解决思路是：

先预测一个相对于若干关键位姿的离散位姿标签概率分布；
再预测一个相对于若干关键位姿的连续位姿偏移回归值；
最后使用结合函数将离散位姿预测值和连续位姿回归值结合起来。

模型结构

模型可以分为三个部分，特征提取网络、用于分类的 $B i n$ 和用于回归的 $D e l t a$ 。 $W=[W_F, {W_B^c}, {W_D^c}]$ 。
标签值 $l=\Phi_B(f;W_B^c)$ ，其中 $\Phi_B$ 是有参数 $W_B^c$ 定义的 $B i n$ 网络， $W_B^c$ 为目标的类别， $l$ 是关键位姿 $z_l$ 的标签。 $D e l t a$ 网络预测一个位姿残差 $\delta_y=\Phi_D(f;W_D^c)$ 。给定一个分类的输出，即类别 $l$ 和位姿残差 $\delta_y$ ，结合方法为：
$y=g(z_l, \delta y)$
其中， $g(\cdot,\cdot)$ 为某种结合函数。

在这里插入图片描述
可以选择是否为分类网络中的每个关键位姿分配一个 $D e l t a$ 网络，还是所有关键位姿使用一个共同的关键位姿。若是每个位姿分配一个 $D e l t a$ 网络，位姿残差输出也是标签的函数， $\delta y\rightarrow \delta y^l$ 。

损失函数

损失函数由 $B i n$ 和 $D e l t a$ 的输出构成：
$\mathcal{L}(y_1, y_2) = \alpha \mathcal{L}_{R}(g(z_{l{_1}}, \delta{y_1}), g(z_{l{_2}}, \delta{y_2})) + \mathcal{L}_C(l_1, l_2)$

旋转变量 $y_1=g(z_{l_1}, \delta y_1)$ 和 $y_2=g(z_{l_2}, \delta y_2)$ 可以采用四元数和旋转向量表示。

模型

通过结合不同的模型结构、损失函数以及旋转变量的表示形式，可以得到多种模型：
在这里插入图片描述
其中 $+$ 号表示采用One- $D e l t a$ -Per- $B i n$ 结构。

Geodesic Bin & Delta Model

采用欧式距离建立结合函数:
$g(z_l, \delta_y)=z_l+\delta_y$
对于四元数表示的旋转量，需要添加 $L_2$ 正则化：
$g(z_l, \delta_y)=\frac{z_l+\delta_y}{\|z_l+\delta_y\|_2}$
两种模型为：
$\mathcal{M}_G: \min_W\frac{1}{N}\sum_n\left[\alpha\mathcal{L}_R(y_n^*, z_{l_n}+\delta y_n)+\mathcal{L}_C(l_n^*,l_n)\right]$

$\mathcal{M}_G+: \min_W\frac{1}{N}\sum_n\left[\alpha\mathcal{L}_R(y_n^*, z_{l_n}+\delta y^{l_n}_n)+\mathcal{L}_C(l_n^*,l_n)\right]$

一种简单的模型，采用四个关键位姿的Geodesic Bin & Delta Model为：

在这里插入图片描述

Riemannian Bin & Delta Model

采用指数映射建立结合函数：

$g(z_l, \delta_y)=\log(\exp(z_l)\exp(\delta y))$
旋转量的输出为: $\tilde{R}\exp(\delta y)$
模型为：

$\mathcal{M}_G: \min_W\frac{1}{N}\sum_n\left[\alpha\mathcal{L}_R(R_n^*, z_{l_n}+\tilde{R}_{l_n}\exp(\delta y_n))+\mathcal{L}_C(l_n^*,l_n)\right]$

$\mathcal{M}_G+: \min_W\frac{1}{N}\sum_n\left[\alpha\mathcal{L}_R(R_n^*, z_{l_n}+\tilde{R}_{l_n}\exp(\delta y^{l_n}_n))+\mathcal{L}_C(l_n^*,l_n)\right]$

在这里插入图片描述
由于指数映射只能在旋转角的表示下使用，因此这种模型不能使用四元数。

Probabilistic Bin & Delta Model

该模型是Geodesic Bin & Delta model的变种，使用 $B i n$ 网络输出的标签得分对 $D e l t a$ 网络进行加权。对第n张输出图像，第k个bin的得分为 $p_{nk}$ ，其中 $\dots, K$ 。以 $B i n$ 网络对最终输出的位姿进行加权，得到的模型为：

$\mathcal{M}_G: \min_W\frac{1}{N}\sum_n\left[\alpha\sum_kp_{nk}\mathcal{L}_R(y_n^*, z_k+\delta y_n)+\mathcal{L}_C(l_n^*,l_n)\right]$

$\mathcal{M}_G+: \min_W\frac{1}{N}\sum_n\left[\alpha\sum_kp_{nk}\mathcal{L}_R(y_n^*, z_k+\delta y^k_n)+\mathcal{L}_C(l_n^*,l_n)\right]$

RelaXed Bin & Delta

前几种模型都是采用了对每张图片分配了关键位姿，一种更加灵活的模型采用柔性的分配方法，为每幅图像分配一个概率图，方法为：
$p^*_{nk}=\frac{\exp{(-\gamma\|y_n^*-z_k\|_2^2)}}{\sum_k\exp{(-\gamma\|y_n^*-z_k\|_2^2)}}$

两种模型为：

$\mathcal{M}_X: \min_W\frac{1}{N}\sum_n\left[\alpha\mathcal{L}_R(R_n^*, z_{l_n}+\delta y_n)+\mathcal{L}_{KD}(p_n^*,p_n)\right]$

$\mathcal{M}_X+: \min_W\frac{1}{N}\sum_n\left[\alpha\mathcal{L}_R(R_n^*, z_{l_n}+\delta y^{l_n}_n)+\mathcal{L}_{KD}(p_n^*,p_n)\right]$

其中， $\mathcal{L}_{KD}(\cdot, \cdot)$ 为真值与预测值Kullback-Leibler divergence； $p_n^*=[p^*_{nk}]^K_{k=1}$ ， $p_n=[p_{nk}]^K_{k=1}$ 。

RelaXed Probabilistic Bin & Delta Model

对于RelaXed Bin & Delta Model也可以采用 $B i n$ 网络输出的概率分布对 $D e l t a$ 网络进行加权：

$\mathcal{M}_X: \min_W\frac{1}{N}\sum_n\left[\alpha\sum_kp_{nk}\mathcal{L}_R(R_n^*, z_{l_n}+\delta y_n)+\mathcal{L}_{KD}(p_n^*,p_n)\right]$

$\mathcal{M}_X+: \min_W\frac{1}{N}\sum_n\left[\alpha\sum_kp_{nk}\mathcal{L}_R(R_n^*, z_{l_n}+\delta y^{l_n}_n)+\mathcal{L}_{KD}(p_n^*,p_n)\right]$

Simple Bin & Delta Model

前面几种模型的 $\Delta$ 网络损失是定义在结合函数之后，即损失是针对整体网络输出而言。另外一种的建立 $D e l t a$ 网络的损失：

$\mathcal{M}_X: \min_W\frac{1}{N}\sum_n\left[\alpha \|\delta y^*_n -\delta y_n\|_2^2+\mathcal{L}_{C}(l_n^*,l_n)\right]$

$\mathcal{M}_X+: \min_W\frac{1}{N}\sum_n\left[\alpha\|\delta y^*_n -\delta y^{l_n}_n\|_2^2+\mathcal{L}_{C}(l_n^*,l_n)\right]$

Log-Euclidean Bin & Delta Model

Riemannian Bin & Delta 模型中，旋转量真值与预测值间的测地距离可以由切空间在单位1上的欧式距离近似：
$\mathcal{L}(R^*_n, \tilde{R}_{l_n}\exp(\delta y_n))=\mathcal{L}(\tilde{R}_{l_n}^TR^*_n, \exp(\delta y_n))\approx \|\log(\tilde{R}_{l_n}^TR^*_n) - \log(\exp(\delta y_n))\|_2$

当 $(\tilde{R}_{l_n}^TR^*_n)$ 越接近与 $I$ ，近似程度越高，其实就是李群李代数里的一套。

$\mathcal{M}_X: \min_W\frac{1}{N}\sum_n\left[\alpha \|\log(\tilde{R}_{l_n}^TR^*_n) -\delta y_n\|_2^2+\mathcal{L}_{KD}(l_n^*,l_n)\right]$

$\mathcal{M}_X+: \min_W\frac{1}{N}\sum_n\left[\alpha\|\log(\tilde{R}_{l_n}^TR^*_n) -\delta y^{l_n}_n\|_2^2+\mathcal{L}_{KD}(l_n^*,l_n)\right]$

3D Pose Jittering 数据增强

三维的旋转为 $R(az, el, ct) = R_Z(ct)R_X(el)R_Y(az)$ 。绕z轴的旋转会造成相平面内的旋转，而绕x、y轴的旋转会造成图像外的变化，即深度上的变化。作者在camera-tilt和azimuth上进行微小扰动，得到3D pose jittering。

实验

数据集：Pascal3D+
评价指标：

$MedErr=\mathrm{median}^N_{n=1}\angle(R^*_n, R_n)=\mathrm{median}^N_{n=1}\left|\cos^{-1}(\frac{tr(R_n^TR_n^*)-1}{2})\right|$
$Acc_\frac{\pi}{6}=\frac{1}{N}\sum_{n=1}^N\mathbf{1}[\angle(R^*_n, R_n)\le30^\circ]$
$ARP_\theta$ : detected bbox $I O U > 0.5$ and $\angle(R^*_n, R_n)\le \theta$ ， $\theta =30^\circ$
$AVP_K$ : detected bbox $I O U > 0.5$ and $\mathcal{l}(az*) == \mathcal{l}(az)$ ，即 $a z$ 的标签正确， K=4, 8, 16, 32

在这里插入图片描述
结合文章中的其他实验，表现比较好的模型是Riemannian Bin & Delta Model和Geodesic Bin & Delta Model。概率加权、松弛等对两种基础模型的效果并不好。