35、基于二元深度学习的3D机载LiDAR点云几何与颜色属性编解码器

tech5

于 2025-09-24 16:36:44 发布

阅读量23

点赞数

CC 4.0 BY-SA版权

分类专栏：企业数字化转型之路文章标签： 3D机载LiDAR 点云压缩二元深度学习

本文链接：https://blog.youkuaiyun.com/tech5/article/details/152205168

企业数字化转型之路专栏收录该内容

39 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于二元深度学习的3D机载LiDAR点云几何与颜色属性编解码器

1. 引言

随着3D技术的飞速发展，3D获取系统和3D模型处理的可用性不断提高。3D模型能带来真实世界的感知效果，便于数据的理解和分析。如今，3D技术已广泛应用于医疗、航天系统、游戏、电影、打印等众多领域。3D模型的原始数据是点云数据（PCD），在3D扫描仪中，借助LiDAR技术，每个物体都以PCD形式被捕获。

LiDAR是一种主动光学传感器技术，通过计算传感器到目标物体的垂直距离，以3D点云格式捕获地面物体图像。其原理是向地面目标表面发射激光脉冲，计算脉冲返回传感器的时间，该时间代表到地面物体的距离，计算公式为 (d = (ft × pt) / 2) ，其中 (ft) 是脉冲飞行时间， (pt) 是脉冲到达传感器的时间。这种技术能提供不同距离地面物体的精确3D信息，政府和私人数据收集服务常使用直升机、飞机和无人机来采集LiDAR数据。

LiDAR技术根据功能可分为机载LiDAR和地面LiDAR两类。机载LiDAR是安装在航空飞行器上的激光脉冲发射装置，用于收集遥感PCD数据；地面LiDAR则安装在地面移动车辆上，用于捕获建筑物内外、高速公路等表面物体的点云信息。3D机载LiDAR图像在3D遥感目标分析领域至关重要，它能精确记录地球表面的数字高程，已取代摄影测量技术，可用于设计森林、湖泊、河流、桥梁、城市等的3D数字高程模型（DEM），并应用于海洋学、空间研究、健康产业、医学、农业等领域。因此，为降低内存空间、带宽和传输时间成本，针对3D机载LiDAR数据集开展了压缩工作，并在两个3D机载LiDAR数据集和一个地面数据集上进行了实现和测试。

2. 点云图像

典型的LiDAR每秒可在120米范围内生成约220万个3D点的点云图像。这些点云图像包含大量、无结构且无序的3D点。LiDAR技术能生成目标物体在地面表面的x、y和z坐标的空间信息，通过激光时间范围、扫描角度、惯性导航系统（INS）信息和全球定位系统（GPS）位置，将收集到的点后处理为高精度的几何（空间）参考点x、y和z。传感器根据所采用的技术，以不同格式记录信息，如激光格式（LAS）、点云格式（PCD）、ASCII格式、坐标格式（XYZ）等。在本方法中，收集的3D模型数据集被转换为PCD格式数据集。

点云图像中的每个点除了包含空间信息（x, y, z）外，还携带额外信息。点云图像（p）可表示为：
[
p =
\begin{bmatrix}
x_1 & y_1 & z_1 \
x_2 & y_2 & z_2 \
\vdots & \vdots & \vdots \
x_n & y_n & z_n
\end{bmatrix}
\begin{bmatrix}
R_1 & G_1 & B_1 \
R_2 & G_2 & B_2 \
\vdots & \vdots & \vdots \
R_n & G_n & B_n
\end{bmatrix}
\left{
\begin{array}{l}
\text{Intensity}_1, \text{Scan Angle}_1 \
\text{Intensity}_2, \text{Scan Angle}_2 \
\vdots \
\text{Intensity}_n, \text{Scan Angle}_n
\end{array}
\right}
]
其中，p是包含n个3D几何（空间）x、y、z信息、颜色R（红色）、G（绿色）、B（蓝色）属性以及其他额外属性的点云图像。额外信息包括强度、返回次数、点分类（地面或水面）、航线边缘、GPS时间、返回次数、扫描角度、扫描方向等。本方法提出的DDLCPCD算法主要关注空间（x, y, z）和颜色（RGB）属性。

3. 预处理方法

传感器从多次反射中收集的PCD信息可能包含异常值。大量的真实世界几何信息（物体距离）通过反射脉冲测量，这些数据值较大，增加了计算、空间和时间的复杂度。为避免这些问题，在进行其他分析处理之前，需要对PCD数据进行预处理。常见的预处理方法有降采样和数据转换两种。

3.1 降采样

降采样技术将大量信号数据分割成多个较小的非重叠数据样本，便于对采样数据进行计算，而不是对整个大数据进行迭代计算。信号降采样技术适用于PCD数据的降采样过程，常见的降采样方法如下表所示：
| 降采样方法 | 描述 |
| ---- | ---- |
| N因子降采样 | 离散时间点云信号按N因子降采样，即只保留每第N个信号，丢弃其余信号 |
| 点云库过滤函数 | 利用内置的点云库过滤函数去除PCD数据中的不重要点 |
| 建筑物诊断技术 | 在建筑物诊断技术中，仅保留裂缝和空洞的信息，去除其他平整表面点 |
| 体素网格法 | 大多数降采样算法采用体素网格法 |
| 关键点密集层 | 仅保留PCD中的重要点 |

3.2 数据转换

数据转换是将原始PCD图像数据转换为基于最小范围的紧凑窗口PCD数据，以降低点云处理的复杂度。转换函数可压缩数据范围，提高性能，统计方法在其中起着重要作用。选择归一化函数取决于目标物体的脉冲发散、PCD捕获过程中的大气衰减等因素。自适应归一化方法可改善卷积神经网络（CNN）的训练过程，Z分数转换方法可提高PCD的压缩比（CR）。

4. 深度学习（DL）模型

深度学习是机器学习的一个子集，它通过算法模拟人类大脑的结构和功能，即人工智能。深度学习由大型神经网络组成，可自动提取原始数据的特征，实现特征学习。深度学习无需人工监督，就能在无结构和无标签的数据上学习特征，因此适用于处理无结构的PCD数据。本工作基于具有多个全连接（密集）隐藏层的DL模型，以提高模型的学习能力。

深度学习过程包括以下四个阶段：
1. 模型设计 ：设置模型参数，如隐藏层数量、神经元数量、激活函数、优化函数、学习率和动量值等。
2. 模型训练 ：使用收集的原始数据对设计好的模型进行训练。
3. 模型创建 ：根据训练过程创建模型。
4. 模型测试 ：使用测试数据对训练好的模型进行测试，并获得输出结果。

其流程可用以下mermaid流程图表示：

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(设计模型):::process --> B(训练模型):::process
    B --> C(创建模型):::process
    C --> D(测试模型):::process
    D --> E(获得输出):::process
    F(训练数据):::process --> B
    G(测试数据):::process --> D

5. 二元深度学习模型

使用Keras库设计DL模型有三种方式：
1. 顺序模型 ：将各层依次排列创建DL模型。
2. 函数式模型 ：各层以级联方式连接。
3. 二元深度学习模型 ：为克服顺序DL模型中可能出现的梯度消失和特征复用减少等问题，本工作采用函数式DL模型，将两个DL模型从共享输入层并行连接到合并输出层，将单个输入分离为两个输入层，两个输出合并形成PCD图像。在这个二元DL模型中，两个DL结构共享相同的超参数，以获得更好的训练结果，并对输入PCD图像的两个不同属性执行相同的处理。

6. 点云压缩与解压缩

压缩是在不改变信息的前提下减小数据大小的方法。点云压缩是应用于点云的压缩技术，可降低存储和传输成本。在发送端，使用压缩技术对PCD图像进行压缩，减小其大小后发送到远程端；在接收端，通过应用压缩技术的逆过程对压缩后的PCD进行解压缩，生成与原始PCD图像相似的解压缩PCD。本工作使用二元深度学习技术对3D机载LiDAR PCD图像进行压缩，以提高解压缩PCD图像的压缩比和质量。

提出的DDLCPCD工作利用二元深度学习模型对3D机载LiDAR PCD图像的几何和颜色属性进行压缩。结合交替信号采样（ASiS）和最小 - 最大信号变换（MiST）技术，分别对原始PCD图像进行降采样和信号数据变换，将标准化后的信号数据输入二元深度学习模型进行PCD数据压缩。该二元网络包含空间和颜色信息两个组单元，以及压缩和解压缩两个子网络。主要贡献如下：
- 提出的深度学习级联结构取代了传统的点云压缩技术，提高了解压缩点云图像的速度和质量。
- 提出的DDLCPCD压缩方法能以恒定的高压缩比和低失真压缩3D机载LiDAR彩色点云的几何和颜色属性，其性能通过主观和客观分析得到验证。

7. 相关工作

7.1 预处理方法

降采样 ：离散时间点云信号按N因子降采样，保留每第N个信号，丢弃其余信号；利用点云库过滤函数去除不重要点；在建筑物诊断技术中，只保留裂缝和空洞信息，去除其他平整表面点；多数降采样算法采用体素网格法；关键点密集层仅保留PCD中的重要点。
数据转换 ：转换函数可压缩数据范围提高性能，统计方法起重要作用。归一化函数的选择取决于目标物体的脉冲发散、PCD捕获过程中的大气衰减等。自适应归一化方法改善CNN训练过程，Z分数转换方法提高PCD的压缩比。

7.2 点云压缩

传统方法 ：早期采用传统方法压缩PCD图像，如将3D PCD图像划分为2D局部补丁后应用压缩技术；概率 - 基于Golon - Rice编码方法可提高压缩比；预测编码、可变长度编码和算术编码可提高PCD压缩算法的效率。
其他方法 ：基于平面提取的PCD压缩方法只考虑垂直平面点；MPEG PCD编码包含八叉树方法和基于欧几里得的细节层次函数；均匀采样方法可保留整体几何形状；使用图压缩PCD的空间信息，通过预测方法减少时间冗余；3D张量展开方法可降低PCD图像的维度和值；Tensor Tucker分解技术用于降低LiDAR PCD数据的维度；应用稀疏表示减少3D PCD数据块，通过预测方法去除块间冗余；映射算法将2D折叠PCD与原始PCD数据映射以减少不重要点；用多项式函数拟合每个像素以避免直接减少点，将点的差异视为压缩数据点；传统离散小波变换（DWT）方法可保留PCD的信息。

7.3 点云上的深度学习

如今，大多数PCD处理研究采用深度学习模型。深度学习在PCD的分割、分类、检测等处理中表现良好，但在大规模3D场景中的应用较少。一些基于深度学习的PCD处理方法包括：PointNet++与八叉树分组方法结合提高分类效率；基于CNN的Semantic3D.Net模型用于标记大型PCD数据集；训练良好的DL模型可压缩PCD的空间信息；基于DL的CNN用于灾害检测应用中提取3D PCD特征；基于自适应特征调整方法的点网可增强3D点的局部邻域；全卷积网络用于标记点云中的每个3D点；3D堆叠自动编码器模型可压缩PCD的几何信息；循环神经网络通过残差块改进PCD压缩方法；U - Net架构可消除动态PCD数据的时间冗余；顺序超先验模型可改善基于DL的几何压缩；基于自动编码器的DL模型在PCD图像压缩中表现良好；CNN模型可替代压缩过程中的变换和量化方法；稀疏编码器和压缩感知方法可提高压缩速度；基于对称的自动编码器可降低PCD数据的维度；图CNN模型可生成粗糙和稀疏的潜在向量。

8. 提出的方法

8.1 总体架构

DDLCPCD算法的架构包含三个模块，前两个模块是预处理步骤，采用交替信号采样（ASiS）和最小 - 最大信号变换（MiST）技术；第三个模块是基于二元深度学习的编解码器（DDLC），可降低3D PCD图像存储所需的维度和字节数。DDLC有压缩和解压缩两个子网络，分别处理测试PCD图像的空间和颜色信息。DDLC模型的输入层由几何和颜色两组单元共享。其架构流程如下：

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(输入PCD图像):::process --> B(ASiS):::process
    B --> C(MiST):::process
    C --> D(DDLC):::process
    D --> E(压缩比特流):::process
    E --> F(逆归一化):::process
    F --> G(解压缩PCD图像):::process

8.2 交替信号采样（ASiS）

PCD数据通常庞大且不一致，这是由于携带LiDAR传感器的车辆的速度、高度和角度不同，导致记录的PCD在点数和图像密度上不平衡。一个数据集P中的PCD图像 (P_i) 可表示为：
[
P = {p_1, p_2, \cdots, p_N}
]
其中，N是第i个数据集中PCD图像的数量。本工作在两个3D机载LiDAR PCD数据集（建筑物和景观）上进行实现和测试，i的最大值为2。每个点云图像 (p_i) 包含多个属性，本工作主要关注空间信息（3D坐标）和颜色信息（R, G, B）。一个PCD图像可表示为：
[
p =
\begin{bmatrix}
x_1 & y_1 & z_1 \
x_2 & y_2 & z_2 \
\vdots & \vdots & \vdots \
x_k & y_k & z_k
\end{bmatrix}
\begin{bmatrix}
R_1 & G_1 & B_1 \
R_2 & G_2 & B_2 \
\vdots & \vdots & \vdots \
R_k & G_k & B_k
\end{bmatrix}
]
其中，k是每个PCD图像中空间和颜色信息的数量，k值因图像而异，取决于PCD图像的捕获速度和密度。ASiS方法基于奈奎斯特信号采样技术，通过信号的时间周期（(\Delta t)）和最大频率（(\delta_s)）选择交替信号值，以克服数据集中PCD图像的不一致问题，使所有PCD图像具有相同的点数，提高二元深度学习模型训练过程的效率。

8.3 最小 - 最大信号变换（MiST）

MiST技术将原始PCD图像数据转换为基于最小范围的紧凑窗口PCD数据，降低点云处理的复杂度。它通过压缩数据范围，提高后续二元深度学习模型的性能。

9. 性能指标

为评估提出的DDLCPCD算法的性能，使用以下性能指标：
| 指标名称 | 描述 |
| ---- | ---- |
| 倒角伪距离（CPD） | 用于衡量两个点集之间的距离 |
| 豪斯多夫距离（HD） | 表示一个点集到另一个点集的最大距离 |
| 点到点指标（p2p） | 衡量点云之间的点对点差异 |

10. 实验结果

10.1 数据集

本工作在两个3D机载LiDAR PCD数据集（建筑物和景观）和一个地面数据集上进行实现和测试。

10.2 算法实现

实现了提出的DDLCPCD算法，对输入的PCD图像进行预处理（ASiS和MiST），然后输入到DDLC模型进行压缩和解压缩。

10.3 性能分析

10.3.1 主观分析

通过人工观察和评估解压缩后的PCD图像，判断其视觉质量和与原始图像的相似度。结果表明，提出的算法在主观上能生成高质量的解压缩图像。

10.3.2 客观分析

使用性能指标（CPD、HD、p2p）对解压缩后的PCD图像进行客观评估。结果显示，提出的DDLCPCD算法在压缩比和失真控制方面表现良好，能以恒定的高压缩比和低失真压缩3D机载LiDAR彩色点云的几何和颜色属性。

11. 结论

提出的基于二元深度学习的3D机载LiDAR点云几何与颜色属性编解码器（DDLCPCD）算法，通过结合交替信号采样（ASiS）、最小 - 最大信号变换（MiST）和二元深度学习模型，有效降低了3D机载LiDAR PCD图像存储所需的维度和字节数。该算法在解压缩点云图像的速度、质量、压缩比和失真控制方面表现出色，为3D机载LiDAR数据的存储和传输提供了一种有效的解决方案。