如有错误,欢迎指正
本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。
如有侵权,请私信本人。
论文没有给源代码
原文地址:https://arxiv.org/pdf/1610.03295.pdf
参考链接:https://zhuanlan.zhihu.com/p/25673276
Safe, Multi-Agent, Reinforcement Learning for Autonomous Driving
自动驾驶过程实际上是多智能体决策的问题
本文把机器学习的方法应用于高级驾驶策略的选择,而非我们通常意义上的局部路径规划。高级策略使用机器学习的方法可以很好地使用数据驱动,而避免精密而脆弱的人工设计。而局部路径规划模块可以根据高级策略输出进行有针对性的路径选择,所有的不安全因素都会在该层被阻断。这样的系统架构很好地避免了机器学习决策系统的不确定性所带来的危险,给增强学习的应用指出了一条可行之路。
本工作的主要贡献有三点:
- 使用策略梯度迭代的方法求解最优策略,并证明了马尔科夫假设在策略梯度法中的不必要性。同时使用baseline的方法,最小化对累积奖励估计的方差。
- 把学习目标划分为可学习与不可学习的部分,其中不可学习的部分是,对问题的硬约束,其目的是保证系统运行的最基本安全。
- 通过引入一个有向无环图(DAG),对原始问题进行分解。既增强了算法的语义解释性,又降低了对累积奖励估计的方差及采样复杂度。
使用策略梯度法进行增强学习,对奖

本文探讨了将强化学习应用于高级驾驶策略选择,通过策略梯度法解决最优策略,同时引入语义图降低不确定性,确保自动驾驶安全。通过分解问题为可学习和不可学习部分,以及使用有向无环图(DAG)降低采样复杂度,解决了策略梯度法的方差问题。此外,语义图增强了决策的可解释性,降低了决策频率,并提高了系统安全性。
最低0.47元/天 解锁文章
1695

被折叠的 条评论
为什么被折叠?



