南大&小米最新工作！MiLA：环视视频生成世界模型新SOTA！-优快云博客

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

MiLA

论文标题：MiLA: Multi-view Intensive-fidelity Long-term Video Generation World Model for Autonomous Driving
论文链接：https://arxiv.org/abs/2503.15875
项目主页：https://github.com/xiaomi-mlab/mila.github.io

核心创新点：

1. Coarse-to-(Re)fine 分层生成框架

提出两阶段视频生成流程：

Coarse阶段：生成低帧率锚帧（Anchor Frames），作为全局场景结构基准；
Refine阶段：基于锚帧通过插值生成高帧率视频，同时引入联合去噪与校正流（JDC），在插值过程中同步优化锚帧的静态结构保真度与动态物体连续性，有效抑制累积误差与运动失真。

2. 联合去噪与校正流（Joint Denoising and Correcting Flow, JDC）

通过噪声分解与重参数化技术，将锚帧噪声建模为结构化噪声（静态背景误差）与随机噪声（动态物体失真）的混合分布；
设计动态噪声调度策略，联合优化低帧率锚帧的校正与高帧率插值帧的平滑性，显著提升长视频的动态连贯性。

3. 时序渐进去噪调度器（Temporal Progressive Denoising Scheduler, TPD）

提出基于余弦退火函数的非均匀去噪策略，对时间邻近帧施加强时序依赖约束，优先去噪靠近条件帧的片段；
通过“快-慢”模式优化去噪轨迹，早期帧快速收敛以提供上下文，后期帧精细化调整，最终实现全序列同步高质量生成。

4. 多模态融合与多视角对齐机制

集成相机参数、路径点（Waypoints）与文本描述等多模态条件，通过傅里叶嵌入与MLP实现跨模态特征融合；
设计多视图增强空间注意力，扩展DiT模块的跨视图感受野，确保多视角视频的空间对齐与几何一致性。

BadToken

论文标题：BadToken: Token-level Backdoor Attacks to Multi-modal Large Language Models
论文链接：https://arxiv.org/abs/2503.16023

核心创新点：

1. 双模式后门行为定义

Token-substitution ：通过替换输出序列中的特定源词元（如"red"→"green"），实现语义翻转的隐蔽攻击
Token-addition ：在输出尾部注入预设恶意词元序列（如恶意URL），保持语义完整性的同时嵌入有害信息

2. 优化目标建模

提出有效性损失（Lbd）与效用损失（Lcl）的联合优化框架，平衡攻击成功率与模型性能保持
引入嵌入损失（Lemb）约束视觉编码器，通过教师模型蒸馏保持多模态对齐特性

3. 跨任务泛化性

在图像描述、视觉问答等任务中验证攻击有效性（ASR>95%），且能规避现有防御（如输入净化、微调）
在自动驾驶（交通灯状态篡改）和医疗诊断（恶意用药建议注入）场景中验证实际威胁

4. 隐蔽性增强机制

通过触发器与目标词元的细粒度关联，实现仅修改关键词元的高隐蔽攻击（ATS>0.75）
支持多目标攻击（同时嵌入多个触发器-目标词元对）

AutoDrive-QA- Automated Generation

论文标题：AutoDrive-QA- Automated Generation of Multiple-Choice Questions for Autonomous Driving Datasets Using Large Vision-Language Models
论文链接：https://arxiv.org/abs/2503.15778

核心创新点：

1. 统一结构化评估框架的构建

提出AutoDrive-QA基准测试，通过整合多源异构数据集（DriveLM、NuScenes-QA、LingoQA），首次系统覆盖自动驾驶三大核心任务——感知（Perception）、预测（Prediction）和规划（Planning），并标准化问答格式，解决了现有评估体系碎片化的问题。

2. 领域导向的干扰项自动生成技术

基于大型视觉语言模型（VLMs）设计自动化流水线，结合驾驶领域错误模式（如传感器误判、逻辑不一致、领域概念误解等），生成高真实性干扰项（Distractors）。与传统方法相比，该方法通过任务特定错误建模（Task-Specific Error Modeling）显著提升干扰项的语义相关性与挑战性，减少因干扰项过于简单导致的评估偏差。

3. 零样本性能评估与细粒度错误分析

在零样本（Zero-Shot）设置下，验证多模型（如GPT-4V、Qwen2-VL系列）的性能边界。实验表明，模型在感知任务（平均74.94%）表现最优，预测任务（65.33%）挑战最大。进一步通过干扰项选择追踪，量化错误类型分布（如感知任务中45.74%为领域概念错误），揭示模型在视觉理解、逻辑推理等维度的薄弱环节。

4. 可扩展的评估方法论创新

提出多智能体协同过滤机制，结合生成-评估-优化循环，确保生成的多选题（MCQ）满足单正确解、无冗余干扰项等约束条件，同时支持大规模数据集的高效转换（如处理超50万QA对），为自动驾驶模型的迭代与跨数据集泛化提供标准化工具。

GASP

论文标题：GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving
论文链接：https://arxiv.org/abs/2503.15672
项目主页：https://research.zenseact.com/publications/gasp/

核心创新点：

1. 几何-语义联合预训练框架

提出统一的4D时空表征学习范式，通过三个协同任务实现多模态特征融合：

几何占用预测：建模动态场景的连续4D占用场（3D空间+时间），捕捉环境结构演变
语义特征蒸馏：预测DINOv2视觉基础模型的高层语义特征，注入语义先验
自车路径预测：通过隐式 ego-path occupancy 建模车辆可行空间，增强运动理解

2. 时空连续场表示

突破传统离散化预测局限，采用隐式神经场（Implicit Neural Fields）表征时空连续的几何-语义信息，支持任意时空坐标（x,y,z,t）的查询，提升动态场景泛化能力。

3. 多源自监督信号融合

创新性整合三类自监督信号：
LiDAR射线几何约束（含缺失射线负样本挖掘）
图像语义特征蒸馏（基于位置编码去噪的DINOv2特征）
自车运动轨迹先验（多模态路径概率场建模）

4. 数据增强策略

提出旋转增强（±20°随机旋转）消除方向偏置，结合缺失LiDAR射线推理提升几何表征鲁棒性，在Argoverse2等数据集实现语义占用预测（↑15.5mAP）、在线建图（↑5.8mIoU）等下游任务的显著提升。

『自动驾驶之心知识星球』近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫码加入~