
为什么自动驾驶领域内的强化学习,没有很好的落地?
柱哥昨晚和星球嘉宾讨论自动驾驶强化学习的内容,分享给大家。
强化学习一直面临一个很严重的问题 - reward hack,当安全要求提高后,效率会降低。效率提升又可能导致安全性降低。所以这就引申出一个问题,如何设计一个balance的reward,能够去平衡每一项表现。想得到一个全面性能提升的强化学习模型,其实非常难。多个reward之间如何达到平衡也非常困难的。当然也有类似使用逆强化学习的方法去训练每一个reward的权重。
具身智能在我的理解中是一个local motion 的工作,它的目标很清晰。但自动驾驶不仅要完成最终行驶的目标,在中间的过程还要强依赖某些驾驶规则。比如不能逆行、实线不能变道等等,但是机器人的灵活性就高一些,不像自动驾驶这么多的限制。
所以在自动驾驶的实际应用中,除了到达终点,中间还有非常多的评价环节去判断行为的合理性,难点在这里,所以目前具身智能中的强化学习应用很广并且很成功。除此之外,强化学习的理论已经相当长一段时间内没有大的突破,尤其是像GRPO的提出进一步降低了强化学习的门槛。
回到问题本身,大佬认为自动驾驶中强化学习的进一步落地,一个比较重要的点在于需要一个很好的架构,能够跟强化学习互相配合。自动驾驶现有的模型直接拿过来进行强化学习大概率是行不通的。
以上。
如果您也想和自动驾驶学术界或工业界的大佬交流,欢迎加入自动驾驶之心知识星球。我们是一个认真做内容的社区,一个培养未来领袖的地方。

『自动驾驶之心知识星球』目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类的自驾社区,已经超过4000人了。我们期望未来2年内做到近万人的规模。给大家打造一个交流+技术分享的聚集地,是许多初学者和进阶的同学经常逛的地方。
社区内部还经常为大家解答各类实用问题:端到端如何入门?自动驾驶多模态大模型如何学习?自动驾驶VLA的学习路线。数据闭环4D标注的工程实践。快速解答,方便大家应用到项目中。
更有料的是:星球内部为大家梳理了近40+技术路线,无论你是咨询行业应用、还是要找最新的VLA benchmark、综述和学习入门路线,都能极大缩短检索时间。星球还为大家邀请了数十位自动驾驶领域嘉宾,都是活跃在一线产业界和工业界的大佬(经常出现的顶会和各类访谈中哦)。欢迎随时提问,他们将会为大家答疑解惑。除了上面的问题,我们还为大家梳理了很多其它的内容:
端到端自动驾驶如何入门?一段式/二段式量产中如何使用?
传统规划控制想转端到端VLA,求学习路线图!
自动驾驶多模态大模型预训练数据集有哪些?求自动驾驶VLA微调数据集?
多传感器融合现在还适合就业吗?
3DGS和闭环仿真如何结合?应用中需要考虑哪些元素?
世界模型是个啥?业内如何应用,研究还有切入点么?
业内哪家公司前景好一些,适合跳槽,都有什么岗位开放招聘?求星主内推~
博士入学,哪个方向容易出成果?
闭环强化学习如何入门?
端到端自动驾驶学习路线推荐。
......
我们会不定期和一线的学术界&工业界大佬畅聊自动驾驶发展趋势,探讨技术走向和量产痛点:

针对入门者,我们整理了完备的小白入门技术栈和全栈路线图。

国内首个自驾全栈社区:自动驾驶之心知识星球
社区创建的出发点是给大家提供一个自动驾驶相关的技术交流平台,交流学术和工程上的问题。星球内部的成员来自国内外知名高校实验室、自动驾驶相关的头部公司,其中高校和科研机构包括但不限于:上海交大、北京大学、CMU、清华大学、西湖大学、上海人工智能实验室、港科大、港大、南洋理工、新加坡国立、ETH、南京大学、华中科技大学、ETH等等!公司包括但不限于:蔚小理、地平线、华为、大疆、广汽、上汽、博世、轻舟智航、斑马智行、小米汽车、英伟达、Momenta、百度等等。前沿技术聚集地一直是自动驾驶之心的标签!
我们为大家汇总了近40+开源项目、近60+自动驾驶相关数据集、行业主流自驾仿真平台、以及各类技术学习路线,包括但不限于:
自动驾驶感知学习路线 | 自动驾驶仿真学习路线 | 自动驾驶规划控制学习路线 |
|---|---|---|
端到端学习路线 | 3DGS算法原理 | 基于搜索的规划 |
VLA学习路线 | NeRF原理 | 基于采样的规划 |
多模态大模型 | Carla仿真 | 基于车辆运动学的规划 |
占用网络 | Apollo仿真 | 基于数值优化的规划 |
BEV感知 | Autoware仿真 | 横纵解耦规划框架 |
扩散模型 | 联合仿真 | 横纵联合规划框架 |
世界模型 | 自驾仿真产品架构分析 | 基于几何的路径跟踪 |
多传感器融合 | 闭环仿真 | 模型预测控制 |
轨迹预测 | 相关数据集 | 联合预测 |
...... | ...... | ...... |
星球内容一览
星球内容一览!

欢迎加入自动驾驶之心知识星球,与4000名自动驾驶从业人员&学术大佬一同交流。

108

被折叠的 条评论
为什么被折叠?



