NoPoSplat 针对无需相机外参的稀疏视角三维重建。现有 SOTA 方法需要准确的相机外参(SfM/COLMAP——需要大量图片),联合优化位姿估计和重建,形成误差累计。NoPoSplat 通过将首帧视角的局部坐标系作为规范空间,直接融合多视角信息,解耦位姿与重建。直接将相机内参作为 token 嵌入,使模型能够预测合理尺度。
输入是稀疏无 pose 图片以及对应的相机内参
{
I
v
,
K
v
}
v
=
1
V
\{I^v, K^v\}^V_{v=1}
{Iv,Kv}v=1V,其中 v 是视角数量,然后通过学习一个前馈神经网络
f
θ
f_\theta
fθ,在规范空间
I
v
,
k
v
=
1
u
V
I^v,k^{u^V}_{v=1}
Iv,kv=1uV 映射到 3D 高斯,以表达一个场景的几何与外观:
f
θ
:
{
(
I
v
,
k
v
)
}
v
=
1
V
↦
{
∪
(
μ
j
v
,
α
j
v
,
r
j
v
,
s
j
v
,
c
j
v
)
}
j
=
1
,
.
.
.
,
H
×
W
v
=
1
,
.
.
.
,
V
f_{\boldsymbol{\theta}}:\left\{(\boldsymbol{I}^v,\boldsymbol{k}^v)\right\}_{v=1}^V\mapsto\left\{\cup\left(\boldsymbol{\mu}_j^v,\alpha_j^v,\boldsymbol{r}_j^v,\boldsymbol{s}_j^v,\boldsymbol{c}_j^v\right)\right\}_{j=1,...,H\times W}^{v=1,...,V}
fθ:{(Iv,kv)}v=1V↦{∪(μjv,αjv,rjv,sjv,cjv)}j=1,...,H×Wv=1,...,V
NoPoSplat 的核心架构基于 DUSt3R 的框架,但针对 3D高斯重建进行了针对性改进。其处理流程如下:首先将输入 RGB 图像分割为图像块并转换为 token 序列,随后与相机内参 token 进行拼接。这些拼接后的多视角 token 被送入共享权重的 ViT 编码器进行特征提取。编码后的特征通过 ViT 解码器进行跨视角交互,其中每个视角的特征通过 cross-attention 机制与其他视角特征进行深度融合。
为预测 3D高斯参数,系统采用双分支预测头设计:第一个分支专注于高斯中心坐标的预测,仅利用解码器输出的高层语义特征;第二个分支则同时融合解码器特征和原始 RGB 图像信息,用于预测高斯尺度、旋转和颜色等属性。这种 RGB 快捷连接的设计有效弥补了 ViT 特征因 16 倍下采样导致的结构细节丢失,确保了纹理信息的完整传递。通过这种分工明确的预测机制,系统既能保持几何结构的准确性,又能保留场景的精细纹理细节。
传统方法采用"局部到全局"的高斯重建范式,首先在每个输入视图的局部坐标系中预测像素级深度并构建高斯基元,再通过相机外参将这些局部高斯变换到全局坐标系进行融合。这种流程存在两个关键缺陷:一方面,它高度依赖精确的相机外参,而在实际稀疏视角场景(如仅有2-3张输入图像)中,可靠的位姿估计往往难以获取;另一方面,当输入视角间重叠区域有限或测试数据超出训练分布时,这种"先变换后融合"的方式会导致不同视角的高斯基元在全局空间中难以正确对齐,产生严重的重建碎片化问题。
约定第一个输入视角作为 global 坐标系,表示为
[
U
∣
0
]
——
{
u
j
v
→
1
,
r
j
v
→
1
,
c
j
v
→
1
,
α
j
v
→
1
,
s
j
v
→
1
}
[U|0]——\{u_j^{v→1},r_j^{v→1},c_j^{v→1},\alpha_j^{v→1},s_j^{v→1}\}
[U∣0]——{ujv→1,rjv→1,cjv→1,αjv→1,sjv→1},其中 v→1 表示在视角 v 下任意像素
P
j
P_j
Pj 对应的高斯参数。
- 全局加性嵌入(Global Intrinsic Embedding - Addition)最直接粗暴的做法:将相机内参通过线性层映射为全局特征向量,在ViT的patch embedding层之后,将这个特征向量广播(复制扩展)到每个图像patch的特征上,然后简单相加。这种方式实现了内参信息的全局渗透。
- 全局拼接嵌入(Global Intrinsic Embedding - Concat)更优雅的做法:将内参通过线性层转换后,视为一个特殊的内参token,直接拼接到图像patch tokens序列的最前面。这个内参token会参与后续所有的transformer自注意力计算,自然地与视觉特征交互。
- 密集光线嵌入(Dense Intrinsic Embedding)最精细的做法:对于每个像素点,先用相机内参矩阵K计算其对应的3D光线方向(相当于去除了外参影响的标准化视线向量),然后通过球谐函数编码为高维特征,最后拼接到对应的RGB像素值上作为网络输入。这实际上是经典PLUCKER射线嵌入的简化版(去除了对外参的依赖),在Dmv3d和LGM等工作中被广泛验证有效。
实验结果