自主移动机器人导航的深度强化学习
在自主移动机器人导航领域,深度强化学习发挥着越来越重要的作用。下面将为大家详细介绍相关的知识和技术。
1. LSTM 层基础
LSTM(长短期记忆网络)层包含三个门:遗忘门、输入门和输出门。它是一种非常强大的循环架构,能够记住大量先前输入的信息。因此,LSTM 层适合解决涉及有序数据序列的问题。如果这些有序数据序列是按时间排序的,那就是时间序列。基于 LSTM 的循环神经网络(RNN)经常成功应用于时间序列分析问题,比如需求预测。
2. 自主机器人系统的应用需求
自主机器人系统的应用需求主要考虑动态环境、安全性和不确定性三个方面。
2.1 动态环境
在强化学习(RL)中,决策者被称为智能体,而除智能体之外的一切就是环境。智能体与环境进行交互,以最大化累积奖励,从而获得奖励值。这种智能体 - 环境的交互过程可以用马尔可夫决策过程(MDP)来建模,涉及状态(S)、动作(A)、奖励(R)和状态转移概率(P)等要素。智能体的策略 π 是从状态空间到动作空间的映射。当智能体处于状态 st 时,它采取动作 at,然后根据状态转移概率 P 转移到下一个状态 st + 1,并从环境中获得奖励值反馈 rt。
虽然智能体在每个时间步都会收到即时奖励反馈,但强化学习的目标是最大化长期累积奖励值,而不是短期奖励。智能体通过优化价值函数不断改进策略 π。由于动态规划需要大量的内存消耗和完整的动态信息,这在实际中往往不可行,因此研究人员提出了两种学习策略:蒙特卡罗学习和时间差分(TD)学习。Q - 学习算法将 TD 学习与贝尔曼方程和 MDP 理论相结合,自那以后,强化学习研究取得了显著
超级会员免费看
订阅专栏 解锁全文
1284

被折叠的 条评论
为什么被折叠?



