强化学习真的很适用于自动驾驶吗?

作者 | SPiriT  编辑 | 汽车人

原文链接:https://www.zhihu.com/question/547768388/answer/2632353625

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心强化学习技术交流群

本文只做学术分享,如有侵权,联系删文

对于L4+级别的自动驾驶,RL是一种能够提高决策上限的技术路线。没错,仅仅是一种技术探索选择。

理想是:RL打上限 + 规则托底下限 + 海量场景库 + 全量特征输入 +……

现实是:规则 + 传统控制,已经cover 99%场景,RL在这些场景下无法保证有传统的控制决策水平。所以对于1%长尾场景,才是RL被期待的重点,但是这个东西又需要大量仿真和场景触发来学习对比,这又顶到了RL“样本类型少而无法学好”的问题……

不过,目前头部车企应该都是有RL方案探索的(注意这里RL应用层次和深浅都不一样,为避免误解,修改成“头部车企”和“RL方案探索”),和学术界搞端到端或者直接决策不同。

一方面,RL主要优化策略搜索的问题来提高效率,比如用MCTS来搜索航点(Tesla),比如用输出预测未来一段时间的位置(百度apollo),比如用来在规划时做不同决策路径的价值评估(车前有自行车是跟随还是远离还是变道等)。

另一方面,RL主要在仿真下做smart agent,其实就是模仿出现实世界的人和物的决策行为,和自动驾驶车辆做博弈,主动创造符合真实场景的人车运动,来提高或验证传统算法。

-----> 分割线

做RL的更多还是在游戏领域,因为env可控、稳定、任务明确。不过现在RL很多新领域研究确实比较香,破游戏圈的趋势也很明显,插一句,自动驾驶类的游戏ai已经是可以做得很好了,当然这和实际自动驾驶可能不是同一类问题。

现在imtaion和offline的RL研究成果尤其多,而且在游戏的工业界也有成功应用,这对降低成本和加速实验迭代是很大利好。

但需要注意,不同公司的RL人才储备和技术水平也差别很大,由于业务需求、组织发展等原因导致RL人才的技术差别巨大。而真正能商业化落地和实际表现出众,是需要大量工程实践经验和扎实项目背景做依靠的。从做出demo到实际落地并成熟商业化,不单纯是个技术问题,但RL技术路线非常值得探索,所以个人还是比较看好RL在自动驾驶落地,并且能够表现惊人,拭目以待吧。

------> 二次分割

部分资料:

  1. 特斯拉2021人工智能日AI Day完整视频(中英双字)_哔哩哔哩_bilibili

8af7e573bc33439c93f6f136e5233ac4.png
  1. 百度apollo pnc rl

05a9c8695f70e0c9d68799b3456c9a98.png

利益相关:游戏ai从业者。曾offer数家自动驾驶企业PNC岗位RL方向。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

b4c1af54955b8e118df8bbddf3b7486e.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

1ee13cd8f1697e16cb7a7ab8598f6f0b.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!

自动驾驶感知:目标检测、语义分割、BEV感知、毫米波雷达视觉融合、激光视觉融合、车道线检测、目标跟踪、Occupancy、深度估计、transformer、大模型、在线地图、点云处理、模型部署、CUDA加速等技术交流群;

多传感器标定:相机在线/离线标定、Lidar-Camera标定、Camera-Radar标定、Camera-IMU标定、多传感器时空同步等技术交流群;

多传感器融合:多传感器后融合技术交流群;

规划控制与预测:规划控制、轨迹预测、避障等技术交流群;

定位建图:视觉SLAM、激光SLAM、多传感器融合SLAM等技术交流群;

三维视觉:三维重建、NeRF、3D Gaussian Splatting技术交流群;

自动驾驶仿真:Carla仿真、Autoware仿真等技术交流群;

自动驾驶开发:自动驾驶开发、ROS等技术交流群;

其它方向:自动标注与数据闭环、产品经理、硬件选型、求职面试、自动驾驶测试等技术交流群;

扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

372f50c1af40c4713843d5bb0412ce64.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

673549375d1c7d3ab4e4240da3946946.jpeg

为了设计一款能够有效聚合校园生活信息的APP,首先需要从用户的需求出发,详细分析目标用户群体的特点和需求,即XXXX生的日常生活和学习需求。在此基础上,定义APP的核心功能和服务范围,包括但不限于选课指南、考试资源、兼职信息、生活充值等服务。 参考资源链接:[校园生活APP:服务XXXX生的创新创业计划](https://wenku.youkuaiyun.com/doc/7ji9n8gsq2?spm=1055.2569.3001.10343) 接下来,进行市场调研,了解同类APP的现状、优缺点以及目标用户对此类APP的使用体验反馈。这一步骤将帮助我们确定产品的差异化特征,并据此制定出创新点和改进方向。 根据调研结果,设计APP的架构和用户界面。架构设计要考虑到数据的高效采集、存储、处理和展示,以及第三方平台的接口对接。用户界面设计则需要注重用户体验,确保操作简便、界面友好。 确定技术路线后,开始APP的开发工作。开发过程中,选择合适的开发工具和框架,如React Native或Flutter等跨平台开发框架,可以快速构建iOS和安卓双端应用。对于数据聚合,可以利用爬虫技术定时从校园网站、合作伙伴网站等来源抓取信息,并存储于服务器。开发中还应考虑到数据的安全性和隐私保护措施。 对于信息的更新及时性与准确性,可以设立后台管理系统,由专业团队负责日常的信息维护和更新,同时设置用户反馈机制,鼓励用户上报错误信息或提出建议。利用机器学习等技术优化信息分类和匹配准确性。 测试阶段,进行全面的系统测试、性能测试和用户测试,确保APP的稳定性和易用性。在APP上线后,进行持续的监控和迭代更新,根据用户反馈不断优化功能和提升服务质量。 总结来说,开发一款校园生活APP需要深入理解用户需求,合理规划产品功能,采用合适的开发技术和架构,并且注重后期的运营和维护。为了深入了解如何将这些步骤具体实现,建议参考《校园生活APP:服务XXXX生的创新创业计划》。这份文档不仅提供了产品规划的全面视角,还包括市场分析和运营策略,是解决当前问题的有力支持。 参考资源链接:[校园生活APP:服务XXXX生的创新创业计划](https://wenku.youkuaiyun.com/doc/7ji9n8gsq2?spm=1055.2569.3001.10343)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值