DriveDreamer4D
利用4D高斯泼溅(4DGS)技术来渲染复杂的驾驶场景,但4DGS的训练数据通常有限,尤其是缺乏多样化的复杂驾驶场景数据(如变道、急刹车等)。为了解决这个问题,作者提出了 Novel Trajectory Generation Module (NTGM),通过生成多样化的复杂驾驶轨迹数据来补充 4DGS 的训练数据,从而提升 4DGS 在复杂场景中的表现。
利用世界模型生成轨迹,结合 NTGM 优化动态场景,再利用 4DGS 重建。通过世界模型显示约束了物理、交通规则,相比 MuDG 是通过 3DGS 隐式约束,生成的场景更合理。(仿真性好)
NTGM
生成更多、更复杂的数据
世界坐标系的原始轨迹通过变换矩阵
M
0
∈
R
4
×
4
M_0\in R^{4×4}
M0∈R4×4 ,转换到第一帧的自车坐标系下(x 轴指向行驶方向,y 轴指向车辆左侧,z 轴垂直向上),后续借鉴文本到轨迹的方法生成新轨迹:
[
p
i
E
g
o
S
t
a
r
t
,
1
]
T
=
M
0
−
1
×
[
p
i
w
o
r
l
d
,
1
]
T
[p_i^{EgoStart}, 1]^T=M_0^{-1}×[p_i^{world},1]^T
[piEgoStart,1]T=M0−1×[piworld,1]T
对于新的轨迹,需要进行安全评估,以确保轨迹保持在可行驶区域内
p
∈
B
r
o
a
d
p\in\mathcal{B}_{road}
p∈Broad 以及确保与其他交通参与者不发生碰撞
∣
∣
p
−
o
j
∣
∣
≥
d
m
i
n
||p-o_j||≥d_{min}
∣∣p−oj∣∣≥dmin 。
一旦生成并验证了新的轨迹,道路结构和3D边界框将从新轨迹的视角投影到相机视图中。这生成了与更新后的轨迹相关的结构化信息。这些结构化信息与初始帧和文本一起输入到世界模型中,生成遵循新轨迹的视频。
CDTS
利用上述生成的数据
时间对齐:
B
a
t
c
h
S
t
a
c
k
(
{
I
^
o
r
i
,
t
}
t
=
0
T
,
{
I
^
n
o
v
e
l
,
t
}
t
=
0
T
)
BatchStack(\{\hat{I}_{ori,t}\}^T_{t=0},\{\hat{I}_{novel,t}\}_{t=0}^T)
BatchStack({I^ori,t}t=0T,{I^novel,t}t=0T) 其中
B
a
t
c
h
S
t
a
c
k
(
⋅
)
BatchStack(·)
BatchStack(⋅) 表示将时间对齐的原始图像
{
I
^
o
r
i
,
t
}
t
=
0
T
\{\hat{I}_{ori,t}\}^T_{t=0}
{I^ori,t}t=0T 和生成图像
{
I
^
n
o
v
e
l
,
t
}
t
=
0
T
\{\hat{I}_{novel,t}\}_{t=0}^T
{I^novel,t}t=0T 堆叠起来,降低数据分布的差异性。
在使用生成的数据集训练 4D高斯泼溅(4DGS) 时,由于 LiDAR 点云数据 仅针对原始轨迹收集,将其投影到新轨迹时无法生成完整的深度图(新视角中可见的内容可能在原始视角中被遮挡),因此深度图不能作为4 DGS 优化的约束。为了解决这一问题,作者提出了正则化损失,通过约束原始数据和新生成数据的感知特征一致性,增强模型的感知一致性,从而在不依赖深度图的情况下优化4DGS模型。
L
n
o
v
e
l
(
ϕ
′
)
=
λ
1
∣
∣
I
^
n
o
v
e
l
−
I
n
o
v
e
l
∣
∣
1
+
λ
3
S
S
I
M
(
I
^
n
o
v
e
l
,
I
n
o
v
e
l
)
L
r
e
g
(
ϕ
′
)
=
∣
∣
F
p
(
I
^
o
r
i
)
−
F
p
(
I
o
r
i
)
∣
∣
1
\begin{aligned} \mathcal{L}_{novel}(\phi^{'})=\lambda_1||\hat{I}_{novel}-I_{novel}||_1+\lambda_3SSIM(\hat{I}_{novel},I_{novel}) \\\mathcal{L}_{reg}(\phi^{'})=||\mathcal{F}_p(\hat{I}_{ori})-\mathcal{F}_p(I_{ori})||_1 \end{aligned}
Lnovel(ϕ′)=λ1∣∣I^novel−Inovel∣∣1+λ3SSIM(I^novel,Inovel)Lreg(ϕ′)=∣∣Fp(I^ori)−Fp(Iori)∣∣1
其中,
F
p
(
⋅
)
F_p(·)
Fp(⋅) 是一个感知特征提取模型。故而总的损失函数为:
L
(
ϕ
′
)
=
L
o
r
i
+
λ
n
o
v
e
l
L
n
o
v
e
l
+
λ
r
e
g
L
r
e
g
\mathcal{L}(\phi^{'})=\mathcal{L}_{ori}+\lambda_{novel}\mathcal{L}_{novel}+\lambda_{reg}\mathcal{L}_{reg}
L(ϕ′)=Lori+λnovelLnovel+λregLreg
实验效果
FreeVS
FreeVS 论文
基于 NeRF / 3DGS 重建的方法来渲染新视角下的成像存在的问题:1)渲染质量差,简单的左右平移会导致质量严重下降。2)耗时长。
目的在于解决记录驾驶轨迹之外合成高质量新视图的问题,面临的挑战:1)精确控制相机姿态同时保证生成视图的 3D 一致性。 2)新轨迹中缺乏 GT 作为训练。
MagicDrive3D、MuDG、DriveDreamer4D 三者均依赖于记录轨迹;并且 DriveDreamer4D依赖世界模型的物理约束,MagicDrive3D和MuDG依赖扩散模型的多视角一致性,均无法保证未训练视角的几何正确性。FreeVS 通过伪图像学习场景的几何先验,将 视角变换 转换为 图像操作,对伪图像做仿射变换,同时对伪图像增加约束。(避免采取了重建模型)
新视图合成需要确保生成的图像与新视角中的颜色、3D 几何和相机姿态等先验信息保持一致,为此提出:将稀疏点云通过 r 帧合成成密集点云,着色后投影至目标相机视角形成伪图像。
训练通过将伪图像以及伪图像中与 GT 不同的图像输入训练,来还原 GT,模拟了相机的运动。
GT 是通过预训练的 VAE 编码然后加噪,伪图像通过 2D 编码器(同时与扩散模型训练)以及 GT 经过 CLIP 的文本描述,三者拼接(k)进入去噪 U-Net。
E
k
,
τ
∼
p
τ
,
ϵ
∈
N
(
0
,
I
)
[
∣
∣
ϵ
−
f
θ
(
k
;
c
,
τ
)
∣
∣
2
2
]
\mathbb{E}_{k,\tau \sim p_\tau,\epsilon\in\mathcal{N}(0,I)}[||\epsilon-f_\theta(k;c,\tau)||^2_2]
Ek,τ∼pτ,ϵ∈N(0,I)[∣∣ϵ−fθ(k;c,τ)∣∣22]
推理将每帧的点云投影到目标相机姿态生成伪图像,扩散模型输入为纯噪声,通过 VAE 解码为合成视角。