MagicDrive 通过对 3D 数据和文本数据的多模态条件融合和隐式视角转换,实现了高质量、多视角一致的 3D 场景生成。
几何条件编码
- Cross-attention:针对顺序数据,适合处理文本标记和边界框等可变长度输入。
- Additive encoder branch:对于地图等网络状规则数据,能够有效保留空间结构。
对于文本
按照模版构建:“A driving scene at {location}. {description}”,并采用预训练的 CLIP 编码。
对于相机位姿
P = { K ∈ R 3 × 3 , R ∈ R 3 × 3 , T ∈ R 3 × 1 } P = \{K \in R^{3×3}, R \in R^{3×3}, T \in R^{3×1}\} P={
K∈R3×3,R∈R3×3,T∈R3×1} ,利用傅里叶变换和 MLP 来对齐文本维度,根据文本模版包含了位置信息,将相机 embeddings 添加到文本 embeddings 之前构建场景 embeddings。
h t = [ h 1 t , … … , h L t ] h c = E c a m ( F o u r i e r ( ( ‾ P ) ) ) = E c a m ( F o u r i e r ( [ K , R , T ] T ) ) \begin{aligned} &h^t=[h^t_1,……,h^t_L] \\&h^c=E_{cam}(Fourier(\overline(P)))=E_{cam}(Fourier([K,R,T]^T)) \end{aligned} ht=[h1t,……,hLt]hc=Ecam(Fourier((P)))=E


最低0.47元/天 解锁文章
2213






