南洋理工&哈佛提出OpenREAD:端到端RL统一认知与轨迹规划

作者 | 深蓝学院 来源 | 深蓝AI

 原文链接:南洋理工、哈佛提出OpenREAD:用端到端RL统一驾驶认知与轨迹规划 

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取自动驾驶之心知识星球

本文只做学术分享,如有侵权,联系删文

「让视觉语言大模型

同时学会“思考”与“执行”」


在自动驾驶研究中,利用大语言视觉语言模型(LLMNLM)学习开放式驾驶知识,进而提升轨迹规划与决策能力,正逐渐成为新的趋势。

然而,传统的监督微调(SFT)范式难以充分挖掘模型的推理潜力,对知识的学习效率也存在不足。DeepSeek-R1的出现向我们展示了强化学习在提升模型推理与思考能力方面的巨大潜力,使模型具备更强的泛化表现。

因此,一个关键问题随之而来:如何通过强化学习增强视觉语言模型的推理能力,让模型“学会思考”,并在同一框架下同时掌握开放式驾驶知识与轨迹规划?这正是基于视觉语言大模型实现端到端自动驾驶所面临的全新挑战。

南洋理工大学与哈佛大学联合推出OpenREAD--一个通过强化学习(RL)全面提升视觉语言大模型(VLM)推理能力的全新框架。

1

方法

该方法引入 Qwen3-LLM作为“评判专家”,将强化学习从传统只适用于可验证的下游任务(如决策、规划),成功拓展到“驾驶建议”“场景分析"等开放式任务,实现从高层语义推理到低层轨迹规划的端到端强化微调。在LingoQA知识评测和NuScenes开环评测中,OpenREAD均取得了SOTA表现。

 1.大语言模型作为开放式知识学习的打分器

在自动驾驶领域,现有强化学习多应用于轨迹预测或决策规划等“可验证”的下游任务,因为这些任务可以直接根据真值计算误差。但基于语言的驾驶知识学习属于开放式问题:同一个参考答案可能有多种不同表达方式,这给RL的奖励函数设计带来了很大挑战。

为解决这一问题,我们做了以下两步准备:

(1) 构建带显式思维链(CoT)的知识数据。

我们在LingoQA数据集上使用GPT-4标注了一批包含详细推理过程的驾驶知识数据,覆盖“感知类”与“决策类”两大任务,让模型能够学习到可解释的推理链条。

(2) 将OmniDrive数据集转换为RL可用格式。

我们将其统一转换为“思考+回答”的形式,使其能用于强化学习训练,包含两类任务:轨迹规划与伪轨迹分析。

两个数据集上的示例标注如图所示:

在数据准备完成后,我们先利用CoT标注进行冷启动(cold start),让模型快速获得基础的思考与推理能力。随后进入基于GRPO的强化微调阶段,进一步提升推理能力。在这个阶段,我们引入Qwen3LLM被用作评判专家,将问题、参考答案和模型生成的回答一起作为Owen3-LLM的输入,让其判断模型的预测与参考答案是否一致,如果一致则设置奖励值1,反之为0。

为了让模型的回答不仅正确,还要简洁、不啰嗦,我们进一步计算生成答案与参考答案的embedding余弦相似度,将其作为额外奖励,与Owen3的评判结果共同作用,使模型在语言表达上更加贴近高质量输出。通过这种“专家判断+语义相似度”双重奖励机制,模型得以在开放式驾驶知识学习中获得更稳定且更可靠的推理能力。

 2.驾驶知识与轨迹规划的协同强化学习

在解决了开放式知识学习的奖励函数难题后,我们进一步将强化学习同时应用于驾驶知识推理与轨迹规划,实现两类任务的协同训练,模型在学习“如何思考驾驶知识”的同时,也学习“如何利用这些知识进行更合理、更安全的轨迹规划”。

对于轨迹规划任务,我们设计了基于轨迹误差的奖励数。县体来说,我们将轨迹误差作为指数函数的变量,对较远时间点的轨迹误差给予更宽松的容忍度,因为此类误差对即时安全性影响较小;对近距离时间点的轨迹误差设置更严格的要求,以确保模型在关键位置的规划更加精准可靠。

在联合强化学习过程中,一个训练批次内可能包含不同类型的任务(如驾驶决策问答、轨迹规划等),我们为每类任务分别计算其对应的奖励函数,最后综合得到当前批次的整体奖励,用于更新模型参数,使模型能够在知识推理与路径规划之间建立自然的联系,从而提升其整体的驾驶智能。

OpenREAD的整体训练框架如下图所示:

2

实验结果

为了验证强化学习对知识学习和轨迹规划协同微调带来的提升,我们分别在LingoQA和NuScenes数据集上对OpenREAD进行评测。

 RFT VS. SFT

从上图可以看到,在仅使用轨迹规划任务的情况下,即使引入强化学习进行微调,轨迹误差和碰撞率的提升都非常有限。随着相关驾驶知识数据的引入,强化学习微调的效果逐渐显现,最终在轨迹误差、碰撞率和相关驾驶知识的评测中,都超过了SFT,证明了引入强化学习同步学习驾驶知识和轨迹规划的必要性。

 路径规划评测对比

在与其他现有方法的轨迹规划对比中,OpenREAD取得了更为出色的碰撞控制能力,保证了驾驶的安全性。与同样使用GRPO进行强化学习微调的AutoVLA相比,OpenREAD均取得了更为出色的轨迹误差和碰撞率控制,这一差异也进一步说明引入驾驶知识对下游任务的重要意义。

 驾驶知识评测对比

在LingoQA数据集的驾驶知识评测中,OpenREAD超过了先前的WiseAD、RecogDrive等一系列工作,取得了最高的Lingo-Judge准确率:

3

更多可视化结果

RFT与SFT的轨迹规划结果对比。

OpenREAD与Owen3-VL和WiseAD在LingoQA上的对比。

4

总结

OpenREAD通过引入Qwen3-LLM作为“评判专家”,实现了对驾驶知识与轨迹规划的协同强化学习微调,进一步拓展了强化学习在端到端自动驾驶中的应用边界。该框架不仅提升了模型的整体推理与规划能力,也为深入挖掘驾驶知识对下游任务性能的促进作用提供了重要参考。

论文链接:https://arxiv.org/abs/2512.01830

代码链接:https://github.com/wyddmw/OpenREAD

数据连接:https://huggingface.co/datasets/wyddmw/OpenREAD

自动驾驶之心

面向量产的端到端小班课!

添加助理咨询课程!

图片

内容概要:本文系统阐述了企业新闻发稿在生成式引擎优化(GEO)时代下的全渠道策略效果评估体系,涵盖当前企业传播面临的预算、资源、内容效果评估四大挑战,并深入分析2025年新闻发稿行业五大趋势,包括AI驱动的智能化转型、精准化传播、首发内容价值提升、内容资产化及数据可视化。文章重点解析央媒、地方官媒、综合门户和自媒体四类媒体资源的特性、传播优势发稿策略,提出基于内容适配性、时间节奏、话题设计的策略制定方法,并构建涵盖品牌价值、销售转化GEO优化的多维评估框架。此外,结合“传声港”工具实操指南,提供AI智能投放、效果监测、自媒体管理舆情应对的全流程解决方案,并针对科技、消费、B2B、区域品牌四大行业推出定制化发稿方案。; 适合人群:企业市场/公关负责人、品牌传播管理者、数字营销从业者及中小企业决策者,具备一定媒体传播经验并希望提升发稿效率ROI的专业人士。; 使用场景及目标:①制定科学的新闻发稿策略,实现从“流量思维”向“价值思维”转型;②构建央媒定调、门户扩散、自媒体互动的立体化传播矩阵;③利用AI工具实现精准投放GEO优化,提升品牌在AI搜索中的权威性可见性;④通过数据驱动评估体系量化品牌影响力销售转化效果。; 阅读建议:建议结合文中提供的实操清单、案例分析工具指南进行系统学习,重点关注媒体适配性策略GEO评估指标,在实际发稿中分阶段试点“AI+全渠道”组合策略,并定期复盘优化,以实现品牌传播的长期复利效应。
【EI复现】基于主从博弈的新型城镇配电系统产消者竞价策略【IEEE33节点】(Matlab代码实现)内容概要:本文介绍了基于主从博弈理论的新型城镇配电系统中产消者竞价策略的研究,结合IEEE33节点系统进行建模仿真分析,采用Matlab代码实现。研究聚焦于产消者(兼具发电用电能力的主体)在配电系统中的竞价行为,运用主从博弈模型刻画配电公司产消者之间的交互关系,通过优化算法求解均衡策略,实现利益最大化系统运行效率提升。文中详细阐述了模型构建、博弈机制设计、求解算法实现及仿真结果分析,复现了EI期刊级别的研究成果,适用于电力市场机制设计智能配电网优化领域。; 适合人群:具备电力系统基础知识和Matlab编程能力,从事电力市场、智能电网、能源优化等相关领域的研究生、科研人员及工程技术人员。; 使用场景及目标:①学习主从博弈在电力系统中的建模方法;②掌握产消者参电力竞价的策略优化技术;③复现EI级别论文的仿真流程结果分析;④开展配电网经济调度市场机制设计的相关课题研究。; 阅读建议:建议读者结合提供的Matlab代码,深入理解博弈模型的数学表达程序实现细节,重点关注目标函数构建、约束条件处理及算法收敛性分析,可进一步拓展至多主体博弈或多时间尺度优化场景。
【BFO-BP】基于鳑鲏鱼优化算法优化BP神经网络的风电功率预测研究(Matlab代码实现)内容概要:本文研究了基于鳑鲏鱼优化算法(BFO)优化BP神经网络的风电功率预测方法,并提供了相应的Matlab代码实现。通过将生物启发式优化算法传统BP神经网络相结合,利用鳑鲏鱼算法优化BP网络的初始权重和阈值,有效提升了模型的收敛速度预测精度,解决了传统BP神经网络易陷入局部最优、训练效率低等问题。该方法在风电功率预测这一典型非线性时序预测任务中展现出良好的适用性和优越性,有助于提升风电并网的稳定性调度效率。; 适合人群:具备一定机器学习优化算法基础,从事新能源预测、电力系统调度或智能算法研究的研究生、科研人员及工程技术人员。; 使用场景及目标:①应用于风电场短期或超短期功率预测,提高电网调度的准确性;②作为智能优化算法神经网络结合的典型案例,用于学习BFO等群智能算法在实际工程问题中的优化机制实现方式;③为类似非线性系统建模预测问题提供可复现的技术路线参考。; 阅读建议:建议读者结合Matlab代码深入理解算法实现细节,重点关注BFO算法的种群初始化、适应度函数设计、参数更新机制及其BP网络的耦合方式,同时可通过更换数据集或对比其他优化算法(如PSO、GA)进一步验证模型性能。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值