为什么自动驾驶中的强化学习，没有很好的落地？

最新推荐文章于 2025-11-17 21:39:56 发布

转载最新推荐文章于 2025-11-17 21:39:56 发布 · 154 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247681300&idx=1&sn=35442518bc88048c35f63c0a11ec4192&chksm=cff150409ae40acdb50aadf920b2fd965e6bf03638d37a2d8747f459f935f8d42833033c4be4&scene=126&sessionid=0

文章标签：

#自动驾驶 #人工智能 #机器学习

为什么自动驾驶领域内的强化学习，没有很好的落地？

柱哥昨晚和星球嘉宾讨论自动驾驶强化学习的内容，分享给大家。

强化学习一直面临一个很严重的问题 - reward hack，当安全要求提高后，效率会降低。效率提升又可能导致安全性降低。所以这就引申出一个问题，如何设计一个balance的reward，能够去平衡每一项表现。想得到一个全面性能提升的强化学习模型，其实非常难。多个reward之间如何达到平衡也非常困难的。当然也有类似使用逆强化学习的方法去训练每一个reward的权重。

具身智能在我的理解中是一个local motion 的工作，它的目标很清晰。但自动驾驶不仅要完成最终行驶的目标，在中间的过程还要强依赖某些驾驶规则。比如不能逆行、实线不能变道等等，但是机器人的灵活性就高一些，不像自动驾驶这么多的限制。

所以在自动驾驶的实际应用中，除了到达终点，中间还有非常多的评价环节去判断行为的合理性，难点在这里，所以目前具身智能中的强化学习应用很广并且很成功。除此之外，强化学习的理论已经相当长一段时间内没有大的突破，尤其是像GRPO的提出进一步降低了强化学习的门槛。

回到问题本身，大佬认为自动驾驶中强化学习的进一步落地，一个比较重要的点在于需要一个很好的架构，能够跟强化学习互相配合。自动驾驶现有的模型直接拿过来进行强化学习大概率是行不通的。

以上。

如果您也想和自动驾驶学术界或工业界的大佬交流，欢迎加入自动驾驶之心知识星球。我们是一个认真做内容的社区，一个培养未来领袖的地方。

『自动驾驶之心知识星球』目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体，是一个综合类的自驾社区，已经超过4000人了。我们期望未来2年内做到近万人的规模。给大家打造一个交流+技术分享的聚集地，是许多初学者和进阶的同学经常逛的地方。

社区内部还经常为大家解答各类实用问题：端到端如何入门？自动驾驶多模态大模型如何学习？自动驾驶VLA的学习路线。数据闭环4D标注的工程实践。快速解答，方便大家应用到项目中。

更有料的是：星球内部为大家梳理了近40+技术路线，无论你是咨询行业应用、还是要找最新的VLA benchmark、综述和学习入门路线，都能极大缩短检索时间。星球还为大家邀请了数十位自动驾驶领域嘉宾，都是活跃在一线产业界和工业界的大佬（经常出现的顶会和各类访谈中哦）。欢迎随时提问，他们将会为大家答疑解惑。除了上面的问题，我们还为大家梳理了很多其它的内容：

端到端自动驾驶如何入门？一段式/二段式量产中如何使用？
传统规划控制想转端到端VLA，求学习路线图！
自动驾驶多模态大模型预训练数据集有哪些？求自动驾驶VLA微调数据集？
多传感器融合现在还适合就业吗？
3DGS和闭环仿真如何结合？应用中需要考虑哪些元素？
世界模型是个啥？业内如何应用，研究还有切入点么？
业内哪家公司前景好一些，适合跳槽，都有什么岗位开放招聘？求星主内推~
博士入学，哪个方向容易出成果？
闭环强化学习如何入门？
端到端自动驾驶学习路线推荐。
......

我们会不定期和一线的学术界&工业界大佬畅聊自动驾驶发展趋势，探讨技术走向和量产痛点：

针对入门者，我们整理了完备的小白入门技术栈和全栈路线图。

国内首个自驾全栈社区：自动驾驶之心知识星球

社区创建的出发点是给大家提供一个自动驾驶相关的技术交流平台，交流学术和工程上的问题。星球内部的成员来自国内外知名高校实验室、自动驾驶相关的头部公司，其中高校和科研机构包括但不限于：上海交大、北京大学、CMU、清华大学、西湖大学、上海人工智能实验室、港科大、港大、南洋理工、新加坡国立、ETH、南京大学、华中科技大学、ETH等等！公司包括但不限于：蔚小理、地平线、华为、大疆、广汽、上汽、博世、轻舟智航、斑马智行、小米汽车、英伟达、Momenta、百度等等。前沿技术聚集地一直是自动驾驶之心的标签！

我们为大家汇总了近40+开源项目、近60+自动驾驶相关数据集、行业主流自驾仿真平台、以及各类技术学习路线，包括但不限于：

自动驾驶感知学习路线	自动驾驶仿真学习路线	自动驾驶规划控制学习路线
端到端学习路线	3DGS算法原理	基于搜索的规划
VLA学习路线	NeRF原理	基于采样的规划
多模态大模型	Carla仿真	基于车辆运动学的规划
占用网络	Apollo仿真	基于数值优化的规划
BEV感知	Autoware仿真	横纵解耦规划框架
扩散模型	联合仿真	横纵联合规划框架
世界模型	自驾仿真产品架构分析	基于几何的路径跟踪
多传感器融合	闭环仿真	模型预测控制
轨迹预测	相关数据集	联合预测
......	......	......