[AAAI 2025 深度解读] 拒绝盲猜：当 CLIP 大模型被引入 3D 点云补全

最新推荐文章于 2026-01-05 15:28:36 发布

原创最新推荐文章于 2026-01-05 15:28:36 发布 · 661 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#3d #深度学习

Swift-All

PyTorch

文本生成

Qwen

Qwen3

Qwen3-VL

图文对话

一个脚本，支持600+大模型与300+多模态大模型的权重下载，训练（预训练、微调、人类对齐）、推理、评测、量化与部署。

论文题目：Position-aware Guided Point Cloud Completion with CLIP Model
发表会议：AAAI 2025 (Association for the Advancement of Artificial Intelligence)
作者： Feng Zhou1, Qi Zhang1, Ju Dai2*, Lei Li3,4, Qing Fan5, Junliang Xing6
地址：https://arxiv.org/abs/2412.08271

1. 引言：几何推断的尽头是语义

在 3D 视觉领域，点云补全（Point Cloud Completion）一直是连接感知与应用的桥梁。然而，受限于传感器（如 LiDAR）的视角和遮挡，我们获取的数据往往是残缺不全的。

1. 现有挑战：几何信息的“盲猜”

主流的补全算法（如 PCN, PoinTr, SeedFormer）通常遵循“几何推断”的范式：通过观察现有的点，利用局部几何的相关性去预测缺失的点。

痛点：这种方法在缺失较少时有效，但在极端缺失情况下（例如：一把椅子只剩下靠背，底座完全消失），几何方法就失效了。因为从纯几何角度看，那一团点可能是一个屏风，也可能是一扇门。

核心矛盾：模型不知道“这是什么（What）”，所以它不知道该“补在哪里（Where）”。只有引入语义（Semantics）——即告诉模型“这是一把椅子”，它才能根据先验知识合理地补出四条腿。

2. 破局思路：CLIP 大模型的跨界援助
既然 3D 数据稀缺且语义匮乏，为何不借用 2D 领域的“最强大脑”？本论文的核心思想非常直接：利用预训练的 CLIP 模型（Contrastive Language-Image Pre-training）作为语义导师。通过将残缺点云转化为深度图和文本标签，利用 CLIP 强大的跨模态对齐能力，为 3D 网络注入丰富的语义先验，指导模型从“盲猜”进化为“有识之士”。

2. 模型架构详解

该模型的架构设计跳出了传统“Encoder-Decoder”的单一维度，构建了一个 “三流合一（Tri-stream）” 的多模态融合框架。

在这里插入图片描述

图 1：我们方法的整体架构由两个主要部分组成：CLIP 增强模块（CLIP-enhanced module）和位置感知模块（Position-aware module）。
• 在 CLIP 增强模块中 $F_g$ 、 $F_l$ 、 $F_T$ 和 $F_t$ 分别表示：全局尺度特征、局部尺度特征、来自 CLIP 的文本特征以及处理后的文本特征（即处理后的）。
• $F_c$ 、 $F'_c$ 、 $F_p$ 和 $F_D$ 分别表示：CLIP 特征、处理后的 CLIP 特征、点云特征以及输入（馈入）解码器的融合特征。。

2.1整体流程：多模态特征提取

模型的输入被分为三条并行支路，分别提取不同维度的特征：

视觉流 (Visual Branch)：六视图正交投影：
为了全方位捕捉 3D 信息，模型并没有使用随机视角的截图，而是采用了严格的 6 视图正交投影 (6 Orthogonal Projections)。
操作：将残缺点云的 $(x, y, z)$ 坐标投影到立方体的 6 个面上，并将深度值归一化为像素值，得到 6 张深度图像 $I = \{I_1, ..., I_6\}$ 10。
特征提取：利用 6 个共享参数的 CLIP Image Encoder 并行处理这 6 张图像，提取特征后进行拼接。这意味着模型拥有了围绕物体的“全景语义视角” 。

文本流 (Text Branch)：语言的指引：
Prompt Engineering：作者并没有只用单词（如 “Chair”），而是构建了更具描述性的 Prompt，例如 “A partial point cloud of a [CLASS]” 或 “A 3D model of a [CLASS]”。
特征提取：输入冻结参数的 CLIP Text Encoder。
作用：提供类别级的强先验。即使图像模糊不清，文本也能告诉网络：“别猜了，这肯定是一架飞机”，从而约束生成形状的拓扑结构。

几何流 (Geometry Branch)：本体特征：
使用轻量级的点云编码器（基于 Transformer 或 PointNet++）提取残缺点云的原始几何特征。这是补全任务的“骨架”。
这三股信息流最终通过 Cross-Attention 机制汇聚，让几何特征去“查询”CLIP 中的语义知识。

2.2 核心创新：位置感知模块 (Position-Aware Module, PAM)

在这里插入图片描述

图 2：我们设计位置感知模块的出发点如下：(a) 一张从残缺汽车点云投影得到的投影图像；(b) 文本“这是一张汽车的图”与投影图之间的相关性；© 文本“这是一张左侧缺了一块的汽车图”与投影图之间的相关性。(d) 一张源自残缺飞机点云的投影图。为了阐明文本在捕捉缺失部分方面的潜在局限性，我们提供了 (e) 和 (f) 进行公平的对比。

失败的尝试：为什么“告诉”模型位置没用？
在介绍最终架构之前，非常有必要提一下作者在探索阶段的一次失败尝试，这直接导向了核心模块 PAM 的诞生。

为了解决补全位置的问题，作者最初的想法非常直观：既然缺了某个角，我能不能直接写在 Prompt 里告诉 CLIP？他们尝试设计了带有位置信息的文本，例如：

“The projection of this chair is missing a piece in the Top Right corner.” （这把椅子的投影在右上角缺了一块）

然而，通过可视化注意力热力图（Attention Map），作者惊讶地发现：CLIP 根本“听不懂”位置指令
即便文本里强调了“Left Side Missing”，CLIP 关注的图像区域依然是发散的，并没有聚焦到缺失部位。

结论：CLIP 的文本编码器对空间位置极不敏感。单纯靠 Prompt Engineering 无法解决 3D 补全中的定位问题，必须从视觉和几何层面设计专门的位置感知机制

鉴于“文本引导位置”的失败，作者设计了 PAM 模块，从视觉特征内部解决空间对齐问题。
1. 分块与自适应权重 (Block Division & Adaptive Weights)
为了让 CLIP 特征具有局部感知能力，作者参考了细粒度视觉任务的做法：
分块：将投影得到的深度图像切分为 $\times 2$ 的非重叠块（Blocks）。
学习机制：模型在训练中学习每个块的权重参数。这使得网络能够区分哪些块是“空的”（缺失部分），哪些块是“实的”（现有部分），从而提取出具有位置信息的局部特征 $F_l$ 。
2. 全局“脑补”引导 (Inpainting for Global Guidance)
仅仅知道局部哪里缺了还不够，还需要知道“缺了的部分原本长什么样”。
Inpainting：作者引入了一个图像修复网络（Inpainting Network, Nazeri et al.），对残缺的投影图进行预处理，生成一张完整的幻觉图像。
特征融合：将这张“脑补”出的完整图像特征作为 Global Feature ( $F_g$ )，去指导上述的 Local Feature ( $F_l$ )。Cross-Attention：通过 Cross-Attention 机制，让局部特征查询全局特征，最终生成这就既包含细节位置、又包含完整形状语义的融合特征 $F_f$ 。
这一步实际上是用数学手段强制 CLIP 的语义特征与 3D 空间坐标进行“硬绑定”，填补了 CLIP 这种 2D 图文模型在空间感知上的天然缺陷。