专攻长尾场景！同济CoReVLA：双阶段端到端新框架

最新推荐文章于 2025-12-01 06:10:14 发布

原创

最新推荐文章于 2025-12-01 06:10:14 发布 · 493 阅读

CC 4.0 BY-SA版权

文章标签：

自动驾驶技术在长尾场景（低频率、高风险的安全关键场景） 中表现仍存在显著短板——这类场景虽不常见，却占自动驾驶事故的很大比例，且会导致驾驶员接管率急剧上升。

传统模块化自动驾驶系统（感知-预测-规划分阶段）存在“误差累积”问题：各阶段的微小误差会逐步放大，导致整体性能难以提升；而端到端方法直接将传感器输入映射为控制动作或者自车的轨迹，具备更强的适应性和统一优化能力，被认为是解决长尾场景问题的潜在方向。

而当前端到端方法主要分为两类，但均无法很好应对长尾场景：

小规模任务特定模型：将原始传感器数据转化为BEV地图、交互图等结构化中间表示，通过多任务学习联合优化感知、预测、规划。这类模型在常规场景表现稳定，但上下文推理能力弱、对未见过的场景泛化差，难以处理长尾场景中的复杂交互（如突发遮挡、模糊意图）。
大规模预训练模型（如VLM）：依托海量世界知识和强推理能力，衍生出“视觉-语言-动作（VLA）”框架——模仿人类从场景理解到决策的流程，在模糊或罕见场景中展现出更强的可解释性。但VLA面临两大核心挑战：一是长尾QA数据稀缺，多数公开数据集聚焦轨迹标注，缺乏原始视觉数据，且现有VLA专用QA数据集极少覆盖长尾场景；二是稀疏数据下微调效率低，长尾场景发生率低，模型难以从有限数据中有效学习。
论文链接：https://arxiv.org/abs/2509.15968v1
开源链接：https://github.com/FanGShiYuu/CoReVLA

核心设计：“Collect-and-Refine”双阶段框架

为解决上述问题，CoReVLA提出持续学习的双阶段框架，通过“数据收集（Collect）”与“行为优化（Refine）”循环，提升长尾场景下的决策能力。整体流程如figure 1所示，分为预阶段（SFT）、第一阶段（接管数据收集）、第二阶段（DPO优化）三部分。

此阶段的目标是让VLA模型建立自动驾驶领域的基础认知，为后续长尾场景学习铺垫。

QA数据集构建：整合LingoQA、BDD、HAD三个开源数据集，形成70GB领域专用数据。数据格式设计贴合人类推理逻辑：每个样本包含5帧1秒间隔的连续图像（捕捉动态场景），以及思维链（CoT）格式的结构化QA对（分为“场景认知”和“安全驾驶策略学习”两类），既提升模型可解释性，也确保行为合理性。
LoRA微调策略：选择Qwen2.5VL-7B作为基础模型，采用低秩适应（LoRA）对模型关键组件微调——仅更新“视觉投射器”（提升视觉-文本语义对齐能力）和“LLM骨干网络”（增强驾驶相关问题的理解与推理），避免全量微调的高计算成本。
微调目标函数：采用自回归交叉熵损失，优化LoRA引入的可训练参数，公式如下：

其中，为图像序列，