论文阅读笔记——MAGICDRIVE: STREET VIEW GENERATION WITH DIVERSE 3D GEOMETRY CONTROL

最新推荐文章于 2025-07-03 01:00:00 发布

原创

最新推荐文章于 2025-07-03 01:00:00 发布 · 1.4k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #笔记 #3d #人工智能 #自动驾驶

MagicDrive 论文

MagicDrive 通过对 3D 数据和文本数据的多模态条件融合和隐式视角转换，实现了高质量、多视角一致的 3D 场景生成。

几何条件编码

Cross-attention：针对顺序数据，适合处理文本标记和边界框等可变长度输入。
Additive encoder branch：对于地图等网络状规则数据，能够有效保留空间结构。

对于文本

按照模版构建：“A driving scene at {location}. {description}”，并采用预训练的 CLIP 编码。

对于相机位姿

$\{K \in R^{3×3}， R \in R^{3×3}, T \in R^{3×1}\}$ ，利用傅里叶变换和 MLP 来对齐文本维度，根据文本模版包含了位置信息，将相机 embeddings 添加到文本 embeddings 之前构建场景 embeddings。
$\begin{aligned} &h^t=[h^t_1,……,h^t_L] \\&h^c=E_{cam}(Fourier(\overline(P)))=E_{cam}(Fourier([K,R,T]^T)) \end{aligned}$

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

寻丶幽风

关注关注

18
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

华为诺亚等发布MagicDrive3D：自动驾驶街景中任意视图渲染的可控3D生成

AIGCer的博客

05-29

2213

这种创新的方法使得生成过程易于控制，并且可以获取静态场景，从而实现高质量的场景重建。通过大量实验验证，MagicDrive3D框架在生成符合道路地图、3D边界框和文本描述的高度真实感的街景方面表现出色，如下图1所示，展示了生成的相机视图可以增强鸟瞰图（BEV）分割任务的训练，为场景生成提供全面的控制，并能够为自动驾驶仿真创建新颖的街景。通过在 FRONT 相机上增加 4 个不同的装置，并添加渲染视图进行训练，可以减轻来自视角变化的负面影响，下表5展示了这一点，说明了街景生成在训练感知任务中的实用性。

论文学习随记：PoinTr: Diverse Point Cloud Completion with Geometry-Aware Transformers

Pikoyoo的博客

11-23

2536

文章目录1. 理解多头注意力机制自注意力机制Multi-head Attention2. 多次提到的embedding究竟是什么？3.Transformer网络结构Transformer是如何对字符进行Embedding：Transformer网络结构： 1. 理解多头注意力机制学习参考链接重点及笔记：自注意力机制由于传统的Encoder-Decoder架构在建模过程中，下一个时刻的计算过程会依赖于上一个时刻的输出，而这种固有的属性就限制了传统的Encoder-Decoder模型就不能以并行的方式

参与评论您还未登录，请先登录后发表或查看评论

1 条评论

优快云-Ada助手 2025.03.20
你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。