论文阅读笔记——DriveDreamer4D, FreeVS

DriveDreamer4D

DriverDreamer4D 论文

利用4D高斯泼溅(4DGS)技术来渲染复杂的驾驶场景,但4DGS的训练数据通常有限,尤其是缺乏多样化的复杂驾驶场景数据(如变道、急刹车等)。为了解决这个问题,作者提出了 Novel Trajectory Generation Module (NTGM),通过生成多样化的复杂驾驶轨迹数据来补充 4DGS 的训练数据,从而提升 4DGS 在复杂场景中的表现。
利用世界模型生成轨迹,结合 NTGM 优化动态场景,再利用 4DGS 重建。通过世界模型显示约束了物理、交通规则,相比 MuDG 是通过 3DGS 隐式约束,生成的场景更合理。(仿真性好)

在这里插入图片描述

NTGM

生成更多、更复杂的数据

世界坐标系的原始轨迹通过变换矩阵 M 0 ∈ R 4 × 4 M_0\in R^{4×4} M0R4×4 ,转换到第一帧的自车坐标系下(x 轴指向行驶方向,y 轴指向车辆左侧,z 轴垂直向上),后续借鉴文本到轨迹的方法生成新轨迹:
[ p i E g o S t a r t , 1 ] T = M 0 − 1 × [ p i w o r l d , 1 ] T [p_i^{EgoStart}, 1]^T=M_0^{-1}×[p_i^{world},1]^T [piEgoStart,1]T=M01×[piworld,1]T
对于新的轨迹,需要进行安全评估,以确保轨迹保持在可行驶区域内 p ∈ B r o a d p\in\mathcal{B}_{road} pBroad 以及确保与其他交通参与者不发生碰撞 ∣ ∣ p − o j ∣ ∣ ≥ d m i n ||p-o_j||≥d_{min} ∣∣poj∣∣dmin
一旦生成并验证了新的轨迹,道路结构和3D边界框将从新轨迹的视角投影到相机视图中。这生成了与更新后的轨迹相关的结构化信息。这些结构化信息与初始帧和文本一起输入到世界模型中,生成遵循新轨迹的视频。
在这里插入图片描述

CDTS

利用上述生成的数据

时间对齐: B a t c h S t a c k ( { I ^ o r i , t } t = 0 T , { I ^ n o v e l , t } t = 0 T ) BatchStack(\{\hat{I}_{ori,t}\}^T_{t=0},\{\hat{I}_{novel,t}\}_{t=0}^T) BatchStack({I^ori,t}t=0T,{I^novel,t}t=0T) 其中 B a t c h S t a c k ( ⋅ ) BatchStack(·) BatchStack() 表示将时间对齐的原始图像 { I ^ o r i , t } t = 0 T \{\hat{I}_{ori,t}\}^T_{t=0} {I^ori,t}t=0T 和生成图像 { I ^ n o v e l , t } t = 0 T \{\hat{I}_{novel,t}\}_{t=0}^T {I^novel,t}t=0T 堆叠起来,降低数据分布的差异性。
在使用生成的数据集训练 4D高斯泼溅(4DGS) 时,由于 LiDAR 点云数据 仅针对原始轨迹收集,将其投影到新轨迹时无法生成完整的深度图(新视角中可见的内容可能在原始视角中被遮挡),因此深度图不能作为4 DGS 优化的约束。为了解决这一问题,作者提出了正则化损失,通过约束原始数据和新生成数据的感知特征一致性,增强模型的感知一致性,从而在不依赖深度图的情况下优化4DGS模型。
L n o v e l ( ϕ ′ ) = λ 1 ∣ ∣ I ^ n o v e l − I n o v e l ∣ ∣ 1 + λ 3 S S I M ( I ^ n o v e l , I n o v e l ) L r e g ( ϕ ′ ) = ∣ ∣ F p ( I ^ o r i ) − F p ( I o r i ) ∣ ∣ 1 \begin{aligned} \mathcal{L}_{novel}(\phi^{'})=\lambda_1||\hat{I}_{novel}-I_{novel}||_1+\lambda_3SSIM(\hat{I}_{novel},I_{novel}) \\\mathcal{L}_{reg}(\phi^{'})=||\mathcal{F}_p(\hat{I}_{ori})-\mathcal{F}_p(I_{ori})||_1 \end{aligned} Lnovel(ϕ)=λ1∣∣I^novelInovel1+λ3SSIM(I^novel,Inovel)Lreg(ϕ)=∣∣Fp(I^ori)Fp(Iori)1
其中, F p ( ⋅ ) F_p(·) Fp() 是一个感知特征提取模型。故而总的损失函数为:
L ( ϕ ′ ) = L o r i + λ n o v e l L n o v e l + λ r e g L r e g \mathcal{L}(\phi^{'})=\mathcal{L}_{ori}+\lambda_{novel}\mathcal{L}_{novel}+\lambda_{reg}\mathcal{L}_{reg} L(ϕ)=Lori+λnovelLnovel+λregLreg

实验效果

在这里插入图片描述

FreeVS

FreeVS 论文
基于 NeRF / 3DGS 重建的方法来渲染新视角下的成像存在的问题:1)渲染质量差,简单的左右平移会导致质量严重下降。2)耗时长。
目的在于解决记录驾驶轨迹之外合成高质量新视图的问题,面临的挑战:1)精确控制相机姿态同时保证生成视图的 3D 一致性。 2)新轨迹中缺乏 GT 作为训练。

MagicDrive3D、MuDG、DriveDreamer4D 三者均依赖于记录轨迹;并且 DriveDreamer4D依赖世界模型的物理约束,MagicDrive3D和MuDG依赖扩散模型的多视角一致性,均无法保证未训练视角的几何正确性。FreeVS 通过伪图像学习场景的几何先验,将 视角变换 转换为 图像操作,对伪图像做仿射变换,同时对伪图像增加约束。(避免采取了重建模型)

在这里插入图片描述
新视图合成需要确保生成的图像与新视角中的颜色、3D 几何和相机姿态等先验信息保持一致,为此提出:将稀疏点云通过 r 帧合成成密集点云,着色后投影至目标相机视角形成伪图像。

训练通过将伪图像以及伪图像中与 GT 不同的图像输入训练,来还原 GT,模拟了相机的运动。
GT 是通过预训练的 VAE 编码然后加噪,伪图像通过 2D 编码器(同时与扩散模型训练)以及 GT 经过 CLIP 的文本描述,三者拼接(k)进入去噪 U-Net。
E k , τ ∼ p τ , ϵ ∈ N ( 0 , I ) [ ∣ ∣ ϵ − f θ ( k ; c , τ ) ∣ ∣ 2 2 ] \mathbb{E}_{k,\tau \sim p_\tau,\epsilon\in\mathcal{N}(0,I)}[||\epsilon-f_\theta(k;c,\tau)||^2_2] Ek,τpτ,ϵN(0,I)[∣∣ϵfθ(k;c,τ)22]
推理将每帧的点云投影到目标相机姿态生成伪图像,扩散模型输入为纯噪声,通过 VAE 解码为合成视角。

实验结果

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值