30、基于分段刚性运动的 RGB - D 多帧场景流技术研究

keras9composer

于 2025-08-31 15:53:06 发布

阅读量41

点赞数

CC 4.0 BY-SA版权

分类专栏：鲁棒点云重建与对齐文章标签： RGB-D 多帧场景流分段刚性运动

本文链接：https://blog.youkuaiyun.com/keras9composer/article/details/151057181

鲁棒点云重建与对齐专栏收录该内容

31 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于分段刚性运动的 RGB - D 多帧场景流技术研究

1. RGB - D 多帧场景流概述

在处理 RGB - D 图像序列以恢复场景流时，我们可以将其视为分段刚性点集配准问题，结合已知的点强度，通过非线性最小二乘法优化光度和几何项。这里介绍的方法能在多个合成和真实数据集上准确运行，相较于多种基于 RGB - D 的场景流和光流方法具有优势。

2. 能量初始化与设置

图像平滑 ：为减轻亮度项中图像梯度计算时噪声的影响，对图像 (I_i) 进行高斯平滑处理，但不滤波深度信息，因为能量函数 (E) 中的残差数量比参数（段姿态和姿态组合权重）数量高出几个数量级。
段初始化 ：基于深度值使用基于图的分割方法对段进行初始化。开始时，在没有运动分割信息的情况下，根据质心的邻近性初始化段对和邻接矩阵 (\Psi)。具体步骤如下：
1. 计算段 (S_k) 的中心坐标。
2. 对于邻接矩阵的每一行（代表一个段），将其 (K) 个最近段对应的行元素设为 1。
姿态初始化 ：使用两帧能量公式对齐所有相邻帧对来初始化姿态，非相邻帧之间的变换通过相应姿态的串联进行初始化。
项权重归一化 ：对能量函数 (E) 中的每一项相对于总残差数量进行归一化，设置 (\frac{\alpha_{\zeta}}{M_{\alpha_{\zeta}}})，(\frac{\beta_{\zeta}}{M_{\beta_{\zeta}}}) 等作为项权重，其中 (M_{\alpha_{\zeta}})，(M_{\beta_{\zeta}}) 等是相应的残差数量。

graph LR
    A[开始] --> B[图像高斯平滑]
    B --> C[计算段中心坐标]
    C --> D[设置邻接矩阵]
    D --> E[初始化相邻帧对姿态]
    E --> F[初始化非相邻帧变换]
    F --> G[项权重归一化]
    G --> H[结束]

3. 实验评估

3.1 实验环境

所有实验在 Ubuntu 16.04 系统上进行，该系统配备 32 GB RAM 和运行频率为 4GHz 的 Intel Core i7 - 6700K CPU。使用 C++ 实现 MSF 作为独立框架，采用 ceres 作为非线性最小二乘求解器，并选择自动微分成本函数以保证准确性和速度。

3.2 合成数据实验

使用 MPI SINTEL 和 v - KITTI 两个合成数据集进行定量评估。
- 数据集介绍 ：
- MPI SINTEL 数据集包含多个合成渲染的动画电影图像序列，带有额外的深度通道，图像分辨率为 1024 × 436 像素，成像过程和大气效果模拟逼真。
- v - KITTI 数据集是常见城市驾驶场景的合成数据集。
- 对比方法 ：将 MSF 与 SRSF、tv - l1 光流方法进行比较。由于 PD - Flow 是为 Kinect 记录硬编码的，所以在真实数据实验中进行比较，而 MC - Flow 的源代码未公开。
- 参数设置 ：在 Felzenszwalb 算法中，设置每段的最小顶点数为 (2\times10^3)，阈值为 0.5。过度分割用于通过一组刚性 6 - DOF 变换对场景流进行参数化。
- 实验结果 ：
- 准确性 ：在 alley1、bandage1 和 sleeping2 等序列上，MSF 的平均端点误差（EPE）明显低于 SRSF，具体数据如下表所示。
| 序列 | SRSF [225] | MSF |
| ---- | ---- | ---- |
| alley1 | 2.46122/2.40833 | 0.740127 |
| bandage1 | 2.47801/2.46389 | 1.69865 |
| sleeping2, rigid | 1.13584 | 0.307526 |
- 运行时间 ：不同配置下 MSF 和 SRSF 的平均运行时间对比如下表所示。
| 配置 | 2 fr. | 3 fr. | 4 fr. | 2 fr. (r) | l.d. (r) |
| ---- | ---- | ---- | ---- | ---- | ---- |
| SRSF [225] | 274 | n.a. | n.a. | 87.5 | 84.5 |
| MSF | 49 | 221 | 541 | 90 | 254 |

此外，以 alley1 序列为例，研究了 Huber 损失对场景流结果的影响。使用 (l_1) 范数代替 Huber 损失（阈值为 0 的 Huber 损失）会使运行时间和准确性分别降低 5% 和 4%，选择 (l_2) 范数会使 EPE 增加约 40%。

在 v - KITTI 数据集上的评估表明，MSF 适用于驾驶场景，能够准确恢复不同方向和大小运动的汽车场景子流。

3.3 真实数据实验

在 Kinect 记录的刚性多体数据集上评估该方法，将 MSF 与 SRSF、PD - Flow、tv - l1 光流和多帧子空间流（MFSF）进行比较。由于该真实数据集没有地面真值，通过定性观察发现：
- MFSF、PD - Flow 和 SRSR 产生的输出比 tv - l1 和 MSF 更嘈杂。
- MSF 能够保留对象边界，但会引入一些虚假边界，在真实数据中比在 SINTEL 序列中更明显。获取准确的分割需要对嘈杂的真实世界数据进行额外的预处理。

4. 方法讨论

优势：
- 分割结合清晰的对象边界要求以及合适的段大小，使得 MSF 具有较高的准确性。
- 投影点到平面的 ICP 项赋予 MSF 关节点集配准算法的特性。
- 改进的提升能量景观可能也是其优势的一部分。
局限性 ：
- 如果场景不能为数据项（亮度和变化的深度值）提供足够的线索，包含这些区域的段可能会受到附近移动部分的影响而错误地参与运动。
- 该方法需要在提升的拉普拉斯姿态正则化器和鲁棒权重正则化器项之间取得平衡，参数设置应使权重 (w_{ij}) 围绕 0.0 和 1.0 或 - 1.0 分布且方差较小。
- 有时 Felzenszwalb 分割不能生成足够准确的参考帧分割，此时可以使用其他初始化方法，如 SLIC 超像素方法。

5. 结论与未来方向

我们提出了一种新颖的多帧场景流方法，该方法基于参考帧的过度分割，能量函数包含亮度恒定、投影 ICP、鲁棒拉普拉斯和链式姿态正则化器项。实验结果表明，该方法在多个合成和真实数据集上表现出色，优于多种现有方法。

未来工作将聚焦于实时性能方面，由于 MSF 具有良好的并行性，可以在 GPU 上实现。此外，还将评估该模型在视觉里程计和遮挡检测问题上的适用性。同时，在密集 NRSFM 领域，未来可继续分析时间不连续的刚性效应，解决非刚性变形下的形状完成问题；在点集配准方面，带有先验对应关系的方法以及基于引力的方法还有很大的研究空间，如多组点集配准、动态质量分配等，并且引力势能能量函数在机器学习和量子硬件映射中也可能具有优势。

基于分段刚性运动的 RGB - D 多帧场景流技术研究

6. 方法改进与优化展望

为了进一步提升方法的性能，我们可以从多个方面进行改进和优化。以下是一些可能的方向和相关的操作步骤：

6.1 分割算法优化

自适应分割参数调整 ：根据不同场景的特点，自动调整分割算法的参数。例如，对于复杂场景，可以适当降低 Felzenszwalb 算法的阈值，以获得更细致的分割结果；对于简单场景，可以提高阈值，减少计算量。
多算法融合 ：结合多种分割算法的优势，如将 Felzenszwalb 分割和 SLIC 分割相结合。具体操作步骤如下：
1. 分别使用 Felzenszwalb 算法和 SLIC 算法对参考帧进行分割，得到两种分割结果。
2. 设计一个融合策略，例如根据分割区域的一致性和稳定性，选择合适的分割区域进行合并。
3. 对融合后的分割结果进行后处理，去除噪声和不合理的分割区域。

graph LR
    A[输入参考帧] --> B[Felzenszwalb 分割]
    A --> C[SLIC 分割]
    B --> D[融合策略]
    C --> D
    D --> E[后处理]
    E --> F[输出优化分割结果]

6.2 能量函数优化

引入新的约束项 ：在能量函数中添加新的约束项，以提高场景流估计的准确性。例如，可以添加基于运动连续性的约束项，确保相邻帧之间的场景流变化平滑。
动态权重调整 ：根据不同场景和数据的特点，动态调整能量函数中各项的权重。例如，在亮度变化较大的场景中，适当增加亮度恒定项的权重；在深度信息不准确的场景中，降低投影 ICP 项的权重。具体操作步骤如下：
1. 对输入的场景数据进行特征提取，如亮度变化率、深度方差等。
2. 根据提取的特征，建立权重调整模型，例如使用线性回归模型或神经网络模型。
3. 根据权重调整模型，动态调整能量函数中各项的权重。

7. 应用拓展

该方法在多个领域具有广泛的应用前景，以下是一些具体的应用场景和相关的操作流程：

7.1 自动驾驶

场景感知 ：通过 RGB - D 相机获取车辆周围的场景信息，使用该方法估计场景流，从而实现对周围物体的运动状态和位置的准确感知。操作流程如下：
1. 安装 RGB - D 相机在车辆上，实时采集周围场景的 RGB - D 图像序列。
2. 使用本文提出的方法对采集到的图像序列进行处理，估计场景流。
3. 根据场景流信息，识别周围物体的运动状态和位置，为自动驾驶决策提供依据。
障碍物检测与跟踪 ：结合场景流估计和目标检测算法，实现对障碍物的实时检测和跟踪。操作流程如下：
1. 使用目标检测算法（如 YOLO、Faster R - CNN 等）对 RGB - D 图像中的障碍物进行检测。
2. 对检测到的障碍物，使用场景流估计方法跟踪其运动轨迹。
3. 根据障碍物的运动轨迹和位置信息，预测其未来的运动状态，为自动驾驶系统提供预警。

7.2 增强现实

虚拟物体与真实场景融合 ：通过场景流估计，实现虚拟物体与真实场景的实时融合，增强用户的沉浸感。操作流程如下：
1. 使用 RGB - D 相机获取真实场景的信息，估计场景流。
2. 根据场景流信息，实时调整虚拟物体的位置和姿态，使其与真实场景的运动保持一致。
3. 将调整后的虚拟物体与真实场景进行融合，显示给用户。

8. 总结

本文介绍了一种基于分段刚性运动的 RGB - D 多帧场景流方法，该方法通过对参考帧的过度分割和能量函数的优化，在多个合成和真实数据集上取得了较好的效果。同时，分析了该方法的优势和局限性，并提出了一些改进和优化的方向。此外，还探讨了该方法在自动驾驶和增强现实等领域的应用前景。

未来，随着计算机视觉技术的不断发展，我们相信该方法将在更多领域得到广泛应用，并不断得到改进和完善。通过进一步的研究和实践，我们有望实现更高效、更准确的场景流估计，为相关领域的发展提供有力支持。

应用领域	应用场景	操作流程
自动驾驶	场景感知	安装相机采集图像 -> 处理图像估计场景流 -> 识别物体状态和位置
自动驾驶	障碍物检测与跟踪	目标检测 -> 跟踪障碍物轨迹 -> 预测运动状态
增强现实	虚拟物体与真实场景融合	获取场景信息估计场景流 -> 调整虚拟物体位置和姿态 -> 融合显示