基于模型的强化学习实现自主导航
1. 引言
当前,自动驾驶尚未形成行业标准方法。强化学习作为一种颇具前景的途径,受到了广泛关注。有研究表明73%的汽车事故源于人为错误,这凸显了提升车辆自主性对交通安全的重要性。在过去十年,机器学习的进步推动了自动驾驶研究的快速发展。
行为克隆是实现自主性的一种方法,它通过监督学习模仿人类数据集的行为。然而,在自动驾驶的一个细分领域——自主赛车中,由于难以获取多样化的专家赛车数据,且获取成本高、风险大,行为克隆并不适用。因此,强化学习成为更好的选择,它通过在环境中不断尝试和纠错来寻找最优行为策略。
不过,多数强化学习研究集中在特定问题,如棋盘游戏或雅达利游戏,缺乏在接近现实场景中的验证。自主赛车面临着快速行驶和安全驾驶的矛盾目标,这类环境在数学上被建模为受限马尔可夫决策过程。
本文将探讨一种基于搜索的新型算法MuZero在自主导航中的表现,与基准算法近端策略优化(PPO)进行比较。同时,在训练环境中加入领域随机化以提高训练智能体的泛化能力,并研究MuZero处理连续动作空间的能力,评估其连续版本与离散版本的性能。
2. 相关工作
自主赛车可视为顺序决策问题,通常使用马尔可夫决策过程(MDP)进行建模。标准MDP由元组 < S, A, T, R, γ > 定义,其中S是状态空间,A是动作空间,T(s′|s, a) 是转移模型,R(s, a) 是奖励模型,γ 是折扣因子。强化学习智能体的目标是学习一个策略 π : S × A → [0, 1],以最大化预期累积折扣奖励。
但在某些情况下,如自主赛车中避免碰撞,需要对MDP进行扩展,形成受限马尔可夫决策过程(C
超级会员免费看
订阅专栏 解锁全文
22万+

被折叠的 条评论
为什么被折叠?



