Safe, Multi-Agent, Reinforcement Learning for Autonomous Driving

最新推荐文章于 2025-05-23 09:02:45 发布

原创

最新推荐文章于 2025-05-23 09:02:45 发布 · 714 阅读

·

0

·

CC 4.0 BY-SA版权

本文为博主原创文章，转载请声明作者rockray21。如有问题，欢迎指正。

文章标签：

本文探讨了将强化学习应用于高级驾驶策略选择，通过策略梯度法解决最优策略，同时引入语义图降低不确定性，确保自动驾驶安全。通过分解问题为可学习和不可学习部分，以及使用有向无环图（DAG）降低采样复杂度，解决了策略梯度法的方差问题。此外，语义图增强了决策的可解释性，降低了决策频率，并提高了系统安全性。

如有错误，欢迎指正
本文翻译为机翻，仅作初步了解学习使用，需要用到的时候再回来整理。
如有侵权，请私信本人。
论文没有给源代码
原文地址:https://arxiv.org/pdf/1610.03295.pdf
参考链接:https://zhuanlan.zhihu.com/p/25673276

Safe, Multi-Agent, Reinforcement Learning for Autonomous Driving

自动驾驶过程实际上是多智能体决策的问题

本文把机器学习的方法应用于高级驾驶策略的选择，而非我们通常意义上的局部路径规划。高级策略使用机器学习的方法可以很好地使用数据驱动，而避免精密而脆弱的人工设计。而局部路径规划模块可以根据高级策略输出进行有针对性的路径选择，所有的不安全因素都会在该层被阻断。这样的系统架构很好地避免了机器学习决策系统的不确定性所带来的危险，给增强学习的应用指出了一条可行之路。

本工作的主要贡献有三点：

使用策略梯度迭代的方法求解最优策略，并证明了马尔科夫假设在策略梯度法中的不必要性。同时使用baseline的方法，最小化对累积奖励估计的方差。
把学习目标划分为可学习与不可学习的部分，其中不可学习的部分是，对问题的硬约束，其目的是保证系统运行的最基本安全。
通过引入一个有向无环图（DAG），对原始问题进行分解。既增强了算法的语义解释性，又降低了对累积奖励估计的方差及采样复杂度。

使用策略梯度法进行增强学习，对奖

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。