论文阅读笔记——DriveDreamer4D, FreeVS

寻丶幽风

已于 2025-03-29 17:43:29 修改

阅读量1k

点赞数 25

CC 4.0 BY-SA版权

文章标签：论文阅读笔记自动驾驶 3DGS 人工智能

于 2025-03-24 12:00:00 首次发布

本文链接：https://blog.youkuaiyun.com/Multiple_x/article/details/146455754

DriveDreamer4D

DriverDreamer4D 论文

利用4D高斯泼溅（4DGS）技术来渲染复杂的驾驶场景，但4DGS的训练数据通常有限，尤其是缺乏多样化的复杂驾驶场景数据（如变道、急刹车等）。为了解决这个问题，作者提出了 Novel Trajectory Generation Module (NTGM)，通过生成多样化的复杂驾驶轨迹数据来补充 4DGS 的训练数据，从而提升 4DGS 在复杂场景中的表现。
利用世界模型生成轨迹，结合 NTGM 优化动态场景，再利用 4DGS 重建。通过世界模型显示约束了物理、交通规则，相比 MuDG 是通过 3DGS 隐式约束，生成的场景更合理。（仿真性好）

在这里插入图片描述

NTGM

生成更多、更复杂的数据

世界坐标系的原始轨迹通过变换矩阵 $M_0\in R^{4×4}$ ，转换到第一帧的自车坐标系下（x 轴指向行驶方向，y 轴指向车辆左侧，z 轴垂直向上），后续借鉴文本到轨迹的方法生成新轨迹：
$p_i^{EgoStart}, 1]^T=M_0^{-1}×[p_i^{world},1]^T$
对于新的轨迹，需要进行安全评估，以确保轨迹保持在可行驶区域内 $p\in\mathcal{B}_{road}$ 以及确保与其他交通参与者不发生碰撞 $p-o_j||≥d_{min}$ 。
一旦生成并验证了新的轨迹，道路结构和3D边界框将从新轨迹的视角投影到相机视图中。这生成了与更新后的轨迹相关的结构化信息。这些结构化信息与初始帧和文本一起输入到世界模型中，生成遵循新轨迹的视频。
在这里插入图片描述

CDTS

利用上述生成的数据

时间对齐： $BatchStack(\{\hat{I}_{ori,t}\}^T_{t=0},\{\hat{I}_{novel,t}\}_{t=0}^T)$ 其中 $B a t c h St a c k (\cdot)$ 表示将时间对齐的原始图像 $\{\hat{I}_{ori,t}\}^T_{t=0}$ 和生成图像 $\{\hat{I}_{novel,t}\}_{t=0}^T$ 堆叠起来，降低数据分布的差异性。
在使用生成的数据集训练 4D高斯泼溅（4DGS） 时，由于 LiDAR 点云数据 仅针对原始轨迹收集，将其投影到新轨迹时无法生成完整的深度图（新视角中可见的内容可能在原始视角中被遮挡），因此深度图不能作为4 DGS 优化的约束。为了解决这一问题，作者提出了正则化损失，通过约束原始数据和新生成数据的感知特征一致性，增强模型的感知一致性，从而在不依赖深度图的情况下优化4DGS模型。
$\begin{aligned} \mathcal{L}_{novel}(\phi^{'})=\lambda_1||\hat{I}_{novel}-I_{novel}||_1+\lambda_3SSIM(\hat{I}_{novel},I_{novel}) \\\mathcal{L}_{reg}(\phi^{'})=||\mathcal{F}_p(\hat{I}_{ori})-\mathcal{F}_p(I_{ori})||_1 \end{aligned}$
其中， $F_p(·)$ 是一个感知特征提取模型。故而总的损失函数为：
$\mathcal{L}(\phi^{'})=\mathcal{L}_{ori}+\lambda_{novel}\mathcal{L}_{novel}+\lambda_{reg}\mathcal{L}_{reg}$

实验效果

在这里插入图片描述

FreeVS

FreeVS 论文
基于 NeRF / 3DGS 重建的方法来渲染新视角下的成像存在的问题：1）渲染质量差，简单的左右平移会导致质量严重下降。2）耗时长。
目的在于解决记录驾驶轨迹之外合成高质量新视图的问题，面临的挑战：1）精确控制相机姿态同时保证生成视图的 3D 一致性。 2）新轨迹中缺乏 GT 作为训练。

MagicDrive3D、MuDG、DriveDreamer4D 三者均依赖于记录轨迹；并且 DriveDreamer4D依赖世界模型的物理约束，MagicDrive3D和MuDG依赖扩散模型的多视角一致性，均无法保证未训练视角的几何正确性。FreeVS 通过伪图像学习场景的几何先验，将视角变换转换为图像操作，对伪图像做仿射变换，同时对伪图像增加约束。（避免采取了重建模型）

在这里插入图片描述
新视图合成需要确保生成的图像与新视角中的颜色、3D 几何和相机姿态等先验信息保持一致，为此提出：将稀疏点云通过 r 帧合成成密集点云，着色后投影至目标相机视角形成伪图像。

训练通过将伪图像以及伪图像中与 GT 不同的图像输入训练，来还原 GT，模拟了相机的运动。
GT 是通过预训练的 VAE 编码然后加噪，伪图像通过 2D 编码器（同时与扩散模型训练）以及 GT 经过 CLIP 的文本描述，三者拼接（k）进入去噪 U-Net。
$\mathbb{E}_{k,\tau \sim p_\tau,\epsilon\in\mathcal{N}(0,I)}[||\epsilon-f_\theta(k;c,\tau)||^2_2]$
推理将每帧的点云投影到目标相机姿态生成伪图像，扩散模型输入为纯噪声，通过 VAE 解码为合成视角。

实验结果

在这里插入图片描述