南大&小米最新工作!MiLA:环视视频生成世界模型新SOTA!

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

MiLA

  • 论文标题:MiLA: Multi-view Intensive-fidelity Long-term Video Generation World Model for Autonomous Driving

  • 论文链接:https://arxiv.org/abs/2503.15875

  • 项目主页:https://github.com/xiaomi-mlab/mila.github.io

核心创新点:

1. Coarse-to-(Re)fine 分层生成框架

提出两阶段视频生成流程:

  • Coarse阶段:生成低帧率锚帧(Anchor Frames),作为全局场景结构基准;

  • Refine阶段:基于锚帧通过插值生成高帧率视频,同时引入联合去噪与校正流(JDC),在插值过程中同步优化锚帧的静态结构保真度与动态物体连续性,有效抑制累积误差与运动失真。

2. 联合去噪与校正流(Joint Denoising and Correcting Flow, JDC)

  • 通过噪声分解与重参数化技术,将锚帧噪声建模为结构化噪声(静态背景误差)与随机噪声(动态物体失真)的混合分布;

  • 设计动态噪声调度策略,联合优化低帧率锚帧的校正与高帧率插值帧的平滑性,显著提升长视频的动态连贯性。

3. 时序渐进去噪调度器(Temporal Progressive Denoising Scheduler, TPD)

  • 提出基于余弦退火函数的非均匀去噪策略,对时间邻近帧施加强时序依赖约束,优先去噪靠近条件帧的片段;

  • 通过“快-慢”模式优化去噪轨迹,早期帧快速收敛以提供上下文,后期帧精细化调整,最终实现全序列同步高质量生成。

4. 多模态融合与多视角对齐机制

  • 集成相机参数、路径点(Waypoints)与文本描述等多模态条件,通过傅里叶嵌入与MLP实现跨模态特征融合;

  • 设计多视图增强空间注意力,扩展DiT模块的跨视图感受野,确保多视角视频的空间对齐与几何一致性。

BadToken

  • 论文标题:BadToken: Token-level Backdoor Attacks to Multi-modal Large Language Models

  • 论文链接:https://arxiv.org/abs/2503.16023

核心创新点:

1. 双模式后门行为定义

  • Token-substitution :通过替换输出序列中的特定源词元(如"red"→"green"),实现语义翻转的隐蔽攻击

  • Token-addition :在输出尾部注入预设恶意词元序列(如恶意URL),保持语义完整性的同时嵌入有害信息

2. 优化目标建模

  • 提出有效性损失(Lbd)与 效用损失(Lcl)的联合优化框架,平衡攻击成功率与模型性能保持

  • 引入嵌入损失(Lemb)约束视觉编码器,通过教师模型蒸馏保持多模态对齐特性

3. 跨任务泛化性

  • 在图像描述、视觉问答等任务中验证攻击有效性(ASR>95%),且能规避现有防御(如输入净化、微调)

  • 在自动驾驶(交通灯状态篡改)和医疗诊断(恶意用药建议注入)场景中验证实际威胁

4. 隐蔽性增强机制

  • 通过触发器与目标词元的细粒度关联,实现仅修改关键词元 的高隐蔽攻击(ATS>0.75)

  • 支持多目标攻击(同时嵌入多个触发器-目标词元对)

AutoDrive-QA- Automated Generation

  • 论文标题:AutoDrive-QA- Automated Generation of Multiple-Choice Questions for Autonomous Driving Datasets Using Large Vision-Language Models

  • 论文链接:https://arxiv.org/abs/2503.15778

核心创新点:

1. 统一结构化评估框架的构建

  • 提出AutoDrive-QA基准测试,通过整合多源异构数据集(DriveLM、NuScenes-QA、LingoQA),首次系统覆盖自动驾驶三大核心任务——感知(Perception)、预测(Prediction)和规划(Planning),并标准化问答格式,解决了现有评估体系碎片化的问题。

2. 领域导向的干扰项自动生成技术

  • 基于大型视觉语言模型(VLMs)设计自动化流水线,结合驾驶领域错误模式(如传感器误判、逻辑不一致、领域概念误解等),生成高真实性干扰项(Distractors)。与传统方法相比,该方法通过任务特定错误建模(Task-Specific Error Modeling)显著提升干扰项的语义相关性与挑战性,减少因干扰项过于简单导致的评估偏差。

3. 零样本性能评估与细粒度错误分析

  • 在零样本(Zero-Shot)设置下,验证多模型(如GPT-4V、Qwen2-VL系列)的性能边界。实验表明,模型在感知任务(平均74.94%)表现最优,预测任务(65.33%)挑战最大。进一步通过干扰项选择追踪,量化错误类型分布(如感知任务中45.74%为领域概念错误),揭示模型在视觉理解、逻辑推理等维度的薄弱环节。

4. 可扩展的评估方法论创新

  • 提出多智能体协同过滤机制,结合生成-评估-优化循环,确保生成的多选题(MCQ)满足单正确解、无冗余干扰项等约束条件,同时支持大规模数据集的高效转换(如处理超50万QA对),为自动驾驶模型的迭代与跨数据集泛化提供标准化工具。

GASP

  • 论文标题:GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving

  • 论文链接:https://arxiv.org/abs/2503.15672

  • 项目主页:https://research.zenseact.com/publications/gasp/

核心创新点:

1. 几何-语义联合预训练框架

提出统一的4D时空表征学习范式 ,通过三个协同任务实现多模态特征融合:

  • 几何占用预测 :建模动态场景的连续4D占用场(3D空间+时间),捕捉环境结构演变

  • 语义特征蒸馏 :预测DINOv2视觉基础模型的高层语义特征,注入语义先验

  • 自车路径预测 :通过隐式 ego-path occupancy 建模车辆可行空间,增强运动理解

2. 时空连续场表示

  • 突破传统离散化预测局限,采用隐式神经场(Implicit Neural Fields) 表征时空连续的几何-语义信息,支持任意时空坐标(x,y,z,t)的查询,提升动态场景泛化能力。

3. 多源自监督信号融合

  • 创新性整合三类自监督信号:

  • LiDAR射线几何约束 (含缺失射线负样本挖掘)

  • 图像语义特征蒸馏 (基于位置编码去噪的DINOv2特征)

  • 自车运动轨迹先验 (多模态路径概率场建模)

4. 数据增强策略

  • 提出旋转增强(±20°随机旋转) 消除方向偏置,结合缺失LiDAR射线推理 提升几何表征鲁棒性,在Argoverse2等数据集实现语义占用预测(↑15.5mAP)、在线建图(↑5.8mIoU)等下游任务的显著提升。

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎扫码加入~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值