点击下方卡片,关注“自动驾驶之心”公众号
MiLA
论文标题:MiLA: Multi-view Intensive-fidelity Long-term Video Generation World Model for Autonomous Driving
论文链接:https://arxiv.org/abs/2503.15875
项目主页:https://github.com/xiaomi-mlab/mila.github.io

核心创新点:
1. Coarse-to-(Re)fine 分层生成框架
提出两阶段视频生成流程:
Coarse阶段:生成低帧率锚帧(Anchor Frames),作为全局场景结构基准;
Refine阶段:基于锚帧通过插值生成高帧率视频,同时引入联合去噪与校正流(JDC),在插值过程中同步优化锚帧的静态结构保真度与动态物体连续性,有效抑制累积误差与运动失真。
2. 联合去噪与校正流(Joint Denoising and Correcting Flow, JDC)
通过噪声分解与重参数化技术,将锚帧噪声建模为结构化噪声(静态背景误差)与随机噪声(动态物体失真)的混合分布;
设计动态噪声调度策略,联合优化低帧率锚帧的校正与高帧率插值帧的平滑性,显著提升长视频的动态连贯性。
3. 时序渐进去噪调度器(Temporal Progressive Denoising Scheduler, TPD)
提出基于余弦退火函数的非均匀去噪策略,对时间邻近帧施加强时序依赖约束,优先去噪靠近条件帧的片段;
通过“快-慢”模式优化去噪轨迹,早期帧快速收敛以提供上下文,后期帧精细化调整,最终实现全序列同步高质量生成。
4. 多模态融合与多视角对齐机制
集成相机参数、路径点(Waypoints)与文本描述等多模态条件,通过傅里叶嵌入与MLP实现跨模态特征融合;
设计多视图增强空间注意力,扩展DiT模块的跨视图感受野,确保多视角视频的空间对齐与几何一致性。
BadToken
论文标题:BadToken: Token-level Backdoor Attacks to Multi-modal Large Language Models
论文链接:https://arxiv.org/abs/2503.16023

核心创新点:
1. 双模式后门行为定义
Token-substitution :通过替换输出序列中的特定源词元(如"red"→"green"),实现语义翻转的隐蔽攻击
Token-addition :在输出尾部注入预设恶意词元序列(如恶意URL),保持语义完整性的同时嵌入有害信息
2. 优化目标建模
提出有效性损失(Lbd)与 效用损失(Lcl)的联合优化框架,平衡攻击成功率与模型性能保持
引入嵌入损失(Lemb)约束视觉编码器,通过教师模型蒸馏保持多模态对齐特性
3. 跨任务泛化性
在图像描述、视觉问答等任务中验证攻击有效性(ASR>95%),且能规避现有防御(如输入净化、微调)
在自动驾驶(交通灯状态篡改)和医疗诊断(恶意用药建议注入)场景中验证实际威胁
4. 隐蔽性增强机制
通过触发器与目标词元的细粒度关联,实现仅修改关键词元 的高隐蔽攻击(ATS>0.75)
支持多目标攻击(同时嵌入多个触发器-目标词元对)
AutoDrive-QA- Automated Generation
论文标题:AutoDrive-QA- Automated Generation of Multiple-Choice Questions for Autonomous Driving Datasets Using Large Vision-Language Models
论文链接:https://arxiv.org/abs/2503.15778

核心创新点:
1. 统一结构化评估框架的构建
提出AutoDrive-QA基准测试,通过整合多源异构数据集(DriveLM、NuScenes-QA、LingoQA),首次系统覆盖自动驾驶三大核心任务——感知(Perception)、预测(Prediction)和规划(Planning),并标准化问答格式,解决了现有评估体系碎片化的问题。
2. 领域导向的干扰项自动生成技术
基于大型视觉语言模型(VLMs)设计自动化流水线,结合驾驶领域错误模式(如传感器误判、逻辑不一致、领域概念误解等),生成高真实性干扰项(Distractors)。与传统方法相比,该方法通过任务特定错误建模(Task-Specific Error Modeling)显著提升干扰项的语义相关性与挑战性,减少因干扰项过于简单导致的评估偏差。
3. 零样本性能评估与细粒度错误分析
在零样本(Zero-Shot)设置下,验证多模型(如GPT-4V、Qwen2-VL系列)的性能边界。实验表明,模型在感知任务(平均74.94%)表现最优,预测任务(65.33%)挑战最大。进一步通过干扰项选择追踪,量化错误类型分布(如感知任务中45.74%为领域概念错误),揭示模型在视觉理解、逻辑推理等维度的薄弱环节。
4. 可扩展的评估方法论创新
提出多智能体协同过滤机制,结合生成-评估-优化循环,确保生成的多选题(MCQ)满足单正确解、无冗余干扰项等约束条件,同时支持大规模数据集的高效转换(如处理超50万QA对),为自动驾驶模型的迭代与跨数据集泛化提供标准化工具。
GASP
论文标题:GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving
论文链接:https://arxiv.org/abs/2503.15672
项目主页:https://research.zenseact.com/publications/gasp/

核心创新点:
1. 几何-语义联合预训练框架
提出统一的4D时空表征学习范式 ,通过三个协同任务实现多模态特征融合:
几何占用预测 :建模动态场景的连续4D占用场(3D空间+时间),捕捉环境结构演变
语义特征蒸馏 :预测DINOv2视觉基础模型的高层语义特征,注入语义先验
自车路径预测 :通过隐式 ego-path occupancy 建模车辆可行空间,增强运动理解
2. 时空连续场表示
突破传统离散化预测局限,采用隐式神经场(Implicit Neural Fields) 表征时空连续的几何-语义信息,支持任意时空坐标(x,y,z,t)的查询,提升动态场景泛化能力。
3. 多源自监督信号融合
创新性整合三类自监督信号:
LiDAR射线几何约束 (含缺失射线负样本挖掘)
图像语义特征蒸馏 (基于位置编码去噪的DINOv2特征)
自车运动轨迹先验 (多模态路径概率场建模)
4. 数据增强策略
提出旋转增强(±20°随机旋转) 消除方向偏置,结合缺失LiDAR射线推理 提升几何表征鲁棒性,在Argoverse2等数据集实现语义占用预测(↑15.5mAP)、在线建图(↑5.8mIoU)等下游任务的显著提升。
『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎扫码加入~