SLAM文献之-NR-SLAM: Non-Rigid Monocular SLAM

点云SLAM

于 2025-03-27 19:55:51 发布

阅读量721

点赞数 17

分类专栏： SLAM 文章标签： NR-SLAM SLAM 非刚性定位医疗重建变形建模自动化医学干预

本文链接：https://blog.youkuaiyun.com/qq_36812406/article/details/146487330

版权

SLAM 专栏收录该内容

33 篇文章

订阅专栏

NR-SLAM（Non-Rigid SLAM）是一种用于非刚性场景（如人体、软体物体）的SLAM方法，能够在动态形变环境下实现相机跟踪与三维重建。其核心挑战在于同时估计相机位姿和场景的非刚性形变，而传统SLAM（如ORB-SLAM）假设场景是静态或刚体运动的。以下是NR-SLAM的详细原理与推导，涵盖数学建模、优化方法及实现细节。

1. NR-SLAM核心思想

NR-SLAM的目标是：

输入：单目/RGB-D视频序列。
输出：
- 相机位姿 $\mathbf{T}_t \in SE(3) )$ （每帧）。
- 场景的非刚性形变场 $\phi_t: \mathbb{R}^3 \to \mathbb{R}^3 )$ （描述3D点的运动）。
- 动态场景的规范模型（canonical model） $\mathcal{M} )$ （未形变的基准3D结构）。

关键创新：
将非刚性形变建模为时变形变场，并通过优化联合估计相机位姿与形变参数。

2. 数学建模与推导

(1) 非刚性形变表示

NR-SLAM通常采用以下形变表示之一：

基于网格的形变（如Embedded Deformation Graph, ED-Graph）：
- 定义稀疏控制点 $\{\mathbf{g}_i\} )$ ，形变由控制点的变换 $\{\mathbf{T}_i \in SE(3)\} )$ 插值得到。
- 任意点 $\mathbf{p} )$ 的形变后位置：
  $\phi(\mathbf{p}) = \sum_i w_i(\mathbf{p}) \cdot \mathbf{T}_i \mathbf{p} ]$
  - $w_i(\mathbf{p}) )$ 是权重（如基于距离的高斯核）。
基于潜变量的形变（如PCA、神经网络）：
- 形变场 $\phi_t )$ 由低维潜变量 $\mathbf{z}_t )$ 参数化：
  $\phi_t(\mathbf{p}) = \mathbf{p} + f(\mathbf{p}, \mathbf{z}_t) ]$
  - $(f)$ 可以是MLP（如NeRF类方法）或线性基（如PCA）。

(2) 相机投影模型

对于形变场景，3D点 $\mathbf{X}_j )$ 在时刻 $(t)$ 的位置为 $\phi_t(\mathbf{X}_j) )$ ，其投影到图像平面的2D坐标为：
$\mathbf{x}_{tj} = \pi(\mathbf{T}_t \phi_t(\mathbf{X}_j)) ]$

$\pi(\cdot) )$ ：相机投影函数（透视或RGB-D模型）。
$\mathbf{T}_t )$ ：相机到世界坐标系的变换。

(3) 能量函数（优化目标）

NR-SLAM通过最小化以下能量函数联合优化相机位姿、形变场和3D结构：
$E_{\text{photo}} + \lambda_{\text{reg}} E_{\text{reg}} + \lambda_{\text{prior}} E_{\text{prior}} ]$

(a) 光度误差（Photometric Error）

基于RGB或深度一致性：
$E_{\text{photo}} = \sum_{t,j} \rho \left( \| I_t(\mathbf{x}_{tj}) - I_{t+1}(\mathbf{x}_{(t+1)j}) \|^2 \right) ]$

$\rho(\cdot) )$ 是鲁棒核函数（如Huber）。
若使用深度数据，可替换为几何误差：
$E_{\text{depth}} = \sum_{t,j} \| d_t(\mathbf{x}_{tj}) - \| \phi_t(\mathbf{X}_j) - \mathbf{c}_t \| \|^2 ]$
- $\mathbf{c}_t )$ 是相机中心。

(b) 形变正则化（Deformation Regularization）

防止形变场过度自由：
$E_{\text{reg}} = \sum_{i} \| \mathbf{T}_i - \mathbf{T}_{i,\text{prev}} \|^2_F + \sum_{\text{adjacent } i,k} \| \mathbf{T}_i - \mathbf{T}_k \|^2_F ]$

第一项：时序平滑性。
第二项：空间平滑性（控制点间的形变一致性）。

© 先验约束（Prior Term）

物理约束（如弹性形变能量）：
$E_{\text{prior}} = \sum_{\text{edges } (i,j)} \| (\mathbf{T}_i - \mathbf{T}_j) \mathbf{g}_i \|^2 ]$
学习到的形变先验（如用VAE建模形变分布）。

(4) 优化方法

NR-SLAM通常采用交替优化或联合优化：

跟踪（Tracking）：
- 固定形变场 $\phi_t )$ ，优化相机位姿 $\mathbf{T}_t )$ ：
  $\min_{\mathbf{T}_t} E_{\text{photo}} (\mathbf{T}_t, \phi_t) ]$
  - 使用Gauss-Newton或Levenberg-Marquardt算法。
形变估计（Deformation Estimation）：
- 固定 $\mathbf{T}_t )$ ，优化形变参数 $\{\mathbf{T}_i\} )$ 或 $\mathbf{z}_t )$ ：
  $\min_{\phi_t} \left( E_{\text{photo}} + \lambda_{\text{reg}} E_{\text{reg}} \right) ]$
  - 线性系统求解（如共轭梯度法）或深度学习推理。
全局优化（Bundle Adjustment）：
- 联合优化所有变量：
  $\min_{\{\mathbf{T}_t\}, \{\phi_t\}, \{\mathbf{X}_j\}} E ]$
  - 使用稀疏BA（如g2o、Ceres Solver）。

3. 关键技术与实现细节

(1) 形变场的初始化

静态初始化：先运行传统SLAM获取初始3D点，再通过非刚性配准（如ICP）估计形变。
动态初始化：结合光流和语义分割（如人体姿态估计）提供形变先验。

(2) 鲁棒性处理

外点剔除：
- 使用RANSAC剔除不符合形变模型的匹配点。
层次化优化：
- 先优化低频形变（全局运动），再优化高频细节。

(3) 实时性优化

稀疏形变表示：ED-Graph比稠密形变场更高效。
关键帧策略：仅对关键帧优化形变场，非关键帧通过插值得到。

4. 与刚性SLAM的对比

模块	刚性SLAM（如ORB-SLAM）	NR-SLAM
场景假设	静态或刚体运动	非刚性形变
形变建模	无	显式形变场（ED-Graph/PCA/MLP）
优化变量	相机位姿 + 静态地图点	相机位姿 + 形变参数 + 规范模型
计算复杂度	较低	高（需优化形变场）
应用场景	室内/室外静态环境	人体重建、医疗影像、软体机器人

5. 相关论文与扩展

经典论文：
- “DynamicFusion: Reconstruction and Tracking of Non-Rigid Scenes in Real-Time” (CVPR 2015)
  - 首个实时非刚性RGB-D SLAM，使用ED-Graph表示形变。
- “NR-SLAM: Non-Rigid Monocular SLAM” (ECCV 2020)
  - 单目NR-SLAM，结合深度学习与几何优化。
前沿方向：
- 神经形变场（如NeRF+SLAM）：用MLP隐式建模形变（如iMAP、D-NeRF）。
- 物理约束：引入有限元分析（FEM）提升形变真实性。