强化学习真的很适用于自动驾驶吗？

最新推荐文章于 2025-07-15 09:31:45 发布

自动驾驶之心

最新推荐文章于 2025-07-15 09:31:45 发布

阅读量823

点赞数

CC 4.0 BY-SA版权

文章标签：自动驾驶人工智能机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247598738&idx=4&sn=21135f9141887162c6fd8a493ad91bcb&chksm=cf47458f7b8c71e3fa9e32d9a0cdd2be00fb0b45cbc627b6b6195d8cbf53957df85ec19c4a8f&scene=126&sessionid=0

作者 | SPiriT 编辑 | 汽车人

原文链接：https://www.zhihu.com/question/547768388/answer/2632353625

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『强化学习』技术交流群

本文只做学术分享，如有侵权，联系删文

对于L4+级别的自动驾驶，RL是一种能够提高决策上限的技术路线。没错，仅仅是一种技术探索选择。

理想是：RL打上限 + 规则托底下限 + 海量场景库 + 全量特征输入 +……

现实是：规则 + 传统控制，已经cover 99%场景，RL在这些场景下无法保证有传统的控制决策水平。所以对于1%长尾场景，才是RL被期待的重点，但是这个东西又需要大量仿真和场景触发来学习对比，这又顶到了RL“样本类型少而无法学好”的问题……

不过，目前头部车企应该都是有RL方案探索的（注意这里RL应用层次和深浅都不一样，为避免误解，修改成“头部车企”和“RL方案探索”），和学术界搞端到端或者直接决策不同。

一方面，RL主要优化策略搜索的问题来提高效率，比如用MCTS来搜索航点（Tesla），比如用输出预测未来一段时间的位置（百度apollo），比如用来在规划时做不同决策路径的价值评估（车前有自行车是跟随还是远离还是变道等）。

另一方面，RL主要在仿真下做smart agent，其实就是模仿出现实世界的人和物的决策行为，和自动驾驶车辆做博弈，主动创造符合真实场景的人车运动，来提高或验证传统算法。

-----> 分割线

做RL的更多还是在游戏领域，因为env可控、稳定、任务明确。不过现在RL很多新领域研究确实比较香，破游戏圈的趋势也很明显，插一句，自动驾驶类的游戏ai已经是可以做得很好了，当然这和实际自动驾驶可能不是同一类问题。

现在imtaion和offline的RL研究成果尤其多，而且在游戏的工业界也有成功应用，这对降低成本和加速实验迭代是很大利好。

但需要注意，不同公司的RL人才储备和技术水平也差别很大，由于业务需求、组织发展等原因导致RL人才的技术差别巨大。而真正能商业化落地和实际表现出众，是需要大量工程实践经验和扎实项目背景做依靠的。从做出demo到实际落地并成熟商业化，不单纯是个技术问题，但RL技术路线非常值得探索，所以个人还是比较看好RL在自动驾驶落地，并且能够表现惊人，拭目以待吧。

------> 二次分割

部分资料：

特斯拉2021人工智能日AI Day完整视频（中英双字）_哔哩哔哩_bilibili

百度apollo pnc rl

利益相关：游戏ai从业者。曾offer数家自动驾驶企业PNC岗位RL方向。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频