UniSeg

最新推荐文章于 2025-12-04 13:49:48 发布

原创最新推荐文章于 2025-12-04 13:49:48 发布 · 1.2k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #计算机视觉 #深度学习 #机器学习

UniSeg

在这里插入图片描述

Abstract

point-based保留了最完整的点云的特征和信息，但由于非结构化数据的特点，计算效率底下；Voxel-based实现数据对应的结构化，但体素的划分方式对点云的信息损失h有很大影响；View-based实现了紧凑的特征表征，可以通过2D conv完成后续任务，但是投影本身就破坏了原有的3D结构；RGB-image保留了丰富的语义信息，但缺乏空间信息。

提出了一个多模态的点云分割模型(lidar[point-base voxel-base view-base]+image)
设计了一个可学习地跨模态关联Learnable cross-ModalAssociation (LMA)模块，可以自动将Voxel-point和Rv-point与image特征相融合，在充分利用到图像语义信息的同时，对标定误差鲁棒。
最终三种形式的point统一在point space，通过可学习地跨视角关联Learnable cross-View Association module (LVA)模块对特征进行自适应融合。

Related work[转述翻译]

LiDAR-Based Semantic Scene Understanding
语义分割和全景分割是基于LiDAR的语义场景理解的两个基本任务。LiDAR语义分割旨在为输入点云序列中的每个点分配一个类标签。LiDAR全景分割分别在stuff 和thing 上执行语义分割和实例分割。大多数 LiDAR 分割方法将点云作为唯一的输入信号。例如，Cylinder3D 将点云划分为圆柱形分区，并将这些圆柱体特征送到基于 UNet 的分割backbone中。SPVCNN引入了point-base 分支来补充Voxel-based 分支，并基于融合的point-voxel特征进行点分割。LidarMultiNet在一个网络中统一了LiDAR语义分割、全景分割和3D目标检测，并实现了很好的感知性能。前面的方法忽略了RGB图像中包含的丰富信息，从而产生次优性能。本文提出的 UniSeg 考虑了点云的所有模态和所有视图，并且可以受益于所有输入信号的优点。
Multi-Modal Sensor Fusion
由于单模态信号有自己的缺点，多模态融合近年来受到越来越多的关注。 PMF(Perception-Aware Multi-Sensor Fusion)将点云投影到透视图中，并通过基于残差的融合模块融合多模态特征。El Madawi等人对距离图像进行早期融合和中间融合，并重新投影的RGB图像。FuseSeg通过校准矩阵将图像特征合并到基于距离图像的主干中。上述方法仅进行一对一多模态融合，不能充分利用RGB图像丰富的语义信息。当校准矩阵不准确时，这些方法性能较差。相比之下，我们的方法可以实现更自适应的多模态特征融合，并使用所提出的可学习跨模态关联模块缓解点像素错位。

Methodology

在这里插入图片描述

Framework Overview

通过变换将获取RV-image，并通过range-view-based backbone提取到对应的RV-image features: $FR∈RHR×WR×CR\textbf{F}^R \in \mathbb{R}^{H_R×W_R×C_R}$
通过MLPs提取point features： $FP∈RN×Cp\textbf{F}^P \in \mathbb{R}^{N×C_p}$
体素提取+max pooling： $FV∈RNv×Cp\textbf{F}^V \in \mathbb{R}^{N_v×C_p}$
RGB-iamges经过ResNet-based backbone提取到对应的RGB-image features: $FI∈RHI×WI×CI\textbf{F}^I \in \mathbb{R}^{H_I×W_I×C_I}$

Learnable Cross-Modal Association

Point-Image Calibration
点云坐标系和图像坐标系之间的转换关系： $[ui,vi,1]T=1zi⋅S⋅T⋅[xi,yi,zi,1]T[u_i, v_i, 1]^T = \frac{1}{z_i}·S·T·[x_i, y_i, z_i, 1]^T$ , $\in \mathbb{R}^{4×4}$ 为相机外参矩阵， $\in \mathbb{R}^{3×4}$ 为相机内参矩阵。
Voxel-Image Fusion

之前的多模态融合模型会受到不准确的外参/标定的影响，受到deformable-detr的启发，Voxel的坐标即为其中心坐标，再根据变换矩阵得到对应的图像坐标，再通过得到的图像坐标估计pixel offsets，最后通过如下公式完成特征融合：
$Fi,jI=fI(pi+Δpi,l)F_{i,j}^I = f^I(\textbf{p}_i + \Delta\textbf{p}_{i,l})$
$FˉiV=∑m=1MWm[∑l=1LAi,l,m⋅（Wm′Fi,jI）]\bar{F}_i^V = \sum^M_{m=1}W_m[\sum^L_{l=1}A_{i,l,m}·（W^{'}_mF^I_{i,j}）]$ ,
其中 $F^I$ 表示image feature， $Fi,lIF^I_{i,l}$ 表示采样后的image features， $FˉiV∈RN×2Cf\bar{F}^V_i \in \mathbb{R}^{N×2C_f}$ 表示最终输出的image-enhanced Voxel feature， $W_m$ , $W_m^{'}$ 为可学习的权重，m为MAS的index，M为heads数量，L为采样的图片数量，$\Delta \mathbf{p}{i,j} $ 和 $A_{i,j,m}$ 分别表示采样offset和l-th采样图像的m-th注意力头的权重
1. 根据变换矩阵和Voxel-center得到image feature $F^I$
2. 利用学习到的offsets $\Delta \mathbf{p}{i,j} $ 对L个 $F^I$ 进行采样得到 $Fi,lIF^I_{i,l}$
3. 将 $F^V$ 作为 $Q u ery$ , 采样后得到的 $Fi,lIF^I_{i,l}$ 作为 $Key$ 和 $Va l u e$ 输入MSA

Range-Image Fusion
方式同上，最终得到image-enhanced range-view features： $FˉR∈RHR×wR×Cf\bar{F}^R \in \mathbb{R}^{H_R×w_R×C_f}$

Learnable Cross-View Association
在这里插入图片描述

经过LMA之后得到了 $FˉV∈RN×2Cf\bar{\textbf{F}}^V \in \mathbb{R}^{N×2C_f}$ ， $FˉR∈RHR×wR×Cf\bar{\textbf{F}}^R \in \mathbb{R}^{H_R×w_R×C_f}$ 和 $FP∈Rm×Cf\textbf{F}^P \in \mathbb{R}^{m×C_f}$ ,再分别通过 $T_{v2p}$ 和三线性插值得到point-wise voxel features: $FˉV∈Rm×Cf\bar{\textbf{F}}^V \in \mathbb{R}^{m×C_f}$ ;， $T_{r2p}$ 和双线性插值得到point-wise range image features: $FˉR∈Rm×Cf\bar{\textbf{F}}^R \in \mathbb{R}^{m×C_f}$ ，最终concat得到 multi-view features: $FM∈Rm×3Cf\textbf{F}^M \in \mathbb{R}^{m×3C_f}$ 之后 $FM\textbf{F}^M$ 经过可学习地加权矩阵和MLPs得到最终的multi-view features: $FˉglobalM=ReLU(MLPg(Wv(concat(FˉV,FˉR,FˉP)))){\bar{\textbf{F}}}^M_{global} = \text{ReLU}(\text{MLP}_g(W_v(\text{concat}(\bar{\textbf{F}}^V,\bar{\textbf{F}}^R, \bar{\textbf{F}}^P))))$ , $FˉglobalM∈Rm×Cf{\bar{\textbf{F}}}^M_{global} \in \mathbb{R}^{m×C_f}$
之后，在通过跳连得到融合后的全局特征： $FˉM=FˉM+ReLU(MLPg(FˉglobalM))\bar{\textbf{F}}^M= \bar{\textbf{F}}^M + \text{ReLU}(\text{MLP}_g(\bar{\textbf{F}}^M_{global} ))$ ，再通过对应的逆变换得到各自增强后的特征。

Task-Specific Heads

融合处理之后的特征会输入到分类头中得到语义分割的预测结果，进一步地会送到全景分割头中估计实例中心的位置和offsets，生成进一步地全景分割的结果。

Overall Objective
$L=Lwce+αLlovasz+βLheatmap+γLoffset\mathcal{L} = \mathcal{L}_{\text{wce}} + \alpha \mathcal{L}_{\text{lovasz}} + \beta \mathcal{L}_{\text{heatmap}} + \gamma \mathcal{L}_{\text{offset}}$