浙大最新!X-Scene:具有高保真度和灵活可控性的大规模驾驶场景生成!

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

AutoVLA

  • 论文标题:AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning

  • 论文链接:https://arxiv.org/abs/2506.13757

  • 项目主页:https://autovla.github.io/

核心创新点:

1. 统一的自回归模型架构

  • 创新点 :首次将视觉-语言模型(VLM)与物理动作标记(Physical Action Tokens)直接集成,构建端到端的自回归规划策略框架,避免中间表示破坏端到端优化范式。

  • 技术细节 :通过预训练的VLM主干(如Qwen2.5-VL)直接学习动作序列生成,联合优化高阶场景推理(Scene Reasoning)与低阶轨迹规划(Trajectory Planning)。

2. 双模式自适应推理机制

  • 创新点 :提出“快思考”(Fast Thinking)与“慢思考”(Slow Thinking)的双推理模式,自适应切换以应对不同复杂度场景。

    • 快思考 :直接生成轨迹(Direct Trajectory Generation),适用于简单场景。

    • 慢思考 :基于链式思维(Chain-of-Thought, CoT)的复杂推理,用于处理长尾或交互密集场景。

  • 实现方式 :通过监督微调(Supervised Fine-Tuning, SFT)联合训练轨迹数据与CoT推理数据,赋予模型“双过程能力”(Dual-Process Capability)。

3. 强化微调策略(RFT)与Group Relative Policy Optimization (GRPO)

  • 创新点 :引入强化微调 (Reinforcement Fine-Tuning, RFT),通过惩罚冗余推理和对齐奖励函数优化策略,提升性能与效率。

  • 技术细节 :

    • 设计组相对策略优化 (GRPO)算法,计算组内相对优势(Relative Advantage)以指导策略更新。

    • 目标函数包含策略梯度项(Policy Gradient)与KL散度正则化项,平衡探索与利用。

4. 物理动作标记化与可行动性约束

  • 创新点 :提出物理感知动作标记化 (Physical Action Tokenization),将动作空间(如加速度、转向角)离散化为可学习的标记,确保生成轨迹的物理可行性。

  • 优势 :避免传统方法依赖下游规划器生成轨迹的复杂性,直接输出符合动力学约束的动作序列。

5. 高质量推理数据集与自动化标注

  • 创新点 :构建大规模、多模态的驾驶推理数据集 ,覆盖nuScenes、CARLA等真实与仿真场景。

  • 技术实现 :

    • 使用Qwen2.5-VL-72B模型自动生成高精度CoT标注(场景描述、关键物体识别、意图推理、动作决策)。

    • 支持知识蒸馏(Knowledge Distillation),将大模型能力迁移至轻量化模型。

6. 实验验证与泛化能力

  • 成果 :在nuPlan、Waymo、CARLA等真实与仿真数据集的开环/闭环测试中,AutoVLA在规划性能(如碰撞率、轨迹平滑度)与推理效率(减少冗余计算)上均达到SOTA。

  • 核心优势 :通过自适应推理 (Adaptive Reasoning)显著降低简单场景的推理延迟,同时保持复杂场景的高精度规划。

相关内容首发于《自动驾驶之心》知识星球,自动驾驶之心是国内最大的技术、求职、问答、行业信息汇总的综合平台,欢迎扫码加入~

X-Scene

  • 论文标题:X-Scene: Large-Scale Driving Scene Generation with High Fidelity and Flexible Controllability

  • 论文链接:https://arxiv.org/abs/2506.13558

  • 项目主页:https://x-scene.github.io/

核心创新点:

1. 多粒度可控生成框架 (Multi-Granular Controllability)

  • 双模控制机制

    • 高层语义引导:用户自然语言提示经LLM(如GPT-4o)增强为结构化场景描述  ,包含场景风格、对象属性及空间关系(场景图  )。

    • 底层几何约束:支持用户直接输入布局图或通过文本驱动布局生成模块(Scene-Graph-to-Layout Diffusion)自动生成精确的3D包围框与车道线。

  • RAG增强泛化:基于FAISS构建场景描述记忆库  ,实现少样本检索与上下文感知的场景生成(式1)。

2. 几何-外观联合生成与对齐 (Joint Geometry-Appearance Fidelity)

  • 三平面形变注意力机制 (Triplane Deformable Attention):

    • 提出新型三平面编码器(式2),通过可学习偏移   聚合多平面特征,解决降采样几何信息丢失问题,提升3D语义占据(Semantic Occupancy)重建精度(表1:mIoU 92.4%,较UniScene +19.5%)。

  • 3D感知图像生成:

    • 级联生成流程:3D占据栅格 → 渲染语义/深度图 → 引导多视角图像扩散模型。

    • 引入对象位置嵌入   强化几何对齐,确保2D图像与3D结构一致性(图5)。

3. 一致性感知的大场景外推 (Consistency-Aware Large-Scale Extrapolation)

  • 三平面外推算法 (Triplane Extrapolation):

    • 将3D场景扩展分解为三正交平面外推,通过重叠掩码   同步参考区域与新区域去噪过程(式3),保障空间连续性(图3a)。

  • 视觉连贯图像外推:

    • 融合参考图像   与相机位姿嵌入   微调扩散模型,解决跨视角外观不一致问题(图3b)。

  • 大规模场景重建:生成结果可转换为3D高斯表达(3DGS),支持自由视角渲染与仿真应用(图4,9)。

4. 性能优势 (Quantitative Superiority)

  • 占据生成:17类设定下FID³ᴰ=258.8(较UniScene↓51.2%),F-Score=0.785(表2)。

  • 图像生成:448×800分辨率下BEV分割mIoU=69.06%(道路类),NDS=34.48(表3)。

  • 下游任务:生成数据训练3D检测器mAP=28.2%(较MagicDrive↑15.9%),语义占据预测IoU=37.1%(表4,5)。

RelTopo

  • 论文标题:RelTopo: Enhancing Relational Modeling for Driving Scene Topology Reasoning

  • 论文链接:https://arxiv.org/abs/2506.13553

核心创新点:

1. 关系感知的车道检测器

  • 几何偏差自注意力(Geometry-Biased Self-Attention, GBSA)
    将车道间的几何关系(如最小端点距离、角度差异)编码为注意力偏置,通过正弦嵌入和MLP生成高维几何关系特征,显式建模车道间的平行性、连通性等空间结构。

  • 曲线引导交叉注意力(Curve-Guided Cross-Attention, CGCA)
    基于Bézier曲线参数化车道,通过采样曲线上点作为参考位置,利用共享车道查询动态生成偏移量和权重,聚合长程上下文信息,解决稀疏控制点的特征提取难题。

2. 几何增强的L2L拓扑推理模块

  • 多模态关系嵌入
    融合车道特征(MLP生成的前驱/后继嵌入)与几何距离特征(端点到起点距离的MLP编码),构建高维L2L关系嵌入(GL2L),降低对微小感知误差的敏感性。

  • 端到端优化
    直接通过MLP预测拓扑关系,避免传统方法依赖后处理(如TopoLogic的几何距离拓扑后修正)。

3. 跨视图L2T拓扑推理模块

  • BEV-FV特征对齐融合
    将BEV车道投影至前视图(FV)图像空间,提取对应FV特征并与BEV车道查询融合,结合位置编码(PE)对齐空间关系,解决BEV车道与FV交通元素(如红绿灯、标志)的空间表征差异问题。

  • 双视角关系嵌入
    通过广播拼接生成L2T关系嵌入(GL2T),联合BEV和FV信息实现鲁棒的车道-交通元素关系推理。

4. 对比学习策略

  • InfoNCE损失优化
    引入对比学习,增强模型区分正负样本对(连通/非连通)的能力。通过硬负样本挖掘(Top-n hardest negatives)和对称损失函数(Symmetric InfoNCE Loss),提升拓扑关系嵌入的判别性。

相关内容首发于《自动驾驶之心》知识星球,自动驾驶之心是国内最大的技术、求职、问答、行业信息汇总的综合平台,欢迎扫码加入~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值