移动机器人感知学习中的强化学习探索
1. 强化学习基础与马尔可夫假设局限
在移动机器人感知学习的强化学习领域,常采用类似模拟的经验采样方式,且将智能体 - 环境系统视为无模型的。在这种情况下,环境结构与允许的动作可用于生成状态之间的转换,并约束智能体的行为。这里的环境结构指的是任何支配或影响环境动态的因素。
然而,马尔可夫假设在很多情况下可能并不成立。例如:
- 在部分可观测马尔可夫决策过程(POMDPs)中,智能体无法完美观测到状态信息。
- 状态与所提供的反馈之间存在长期的时间依赖性。
解决这类问题的方法通常包括保留某种形式的状态历史,比如使用循环神经网络或依赖长短期记忆(LSTM)的更复杂变体。
2. 时间差分学习算法
2.1 算法概述
时间差分学习算法是强化学习中的一种基本算法。它利用未来状态的信息,并将这些信息有效地回溯传播,以提高智能体对在与环境交互过程中所访问的每个状态的估值。对状态值估计的改进也会直接影响动作选择过程。
该算法特别适用于以下场景:事先不清楚所采取的动作是好是坏,且该动作的整体后果不能立即确定,因为未来收到的奖励可能会产生重大影响。其目的是基于领域R的反馈,学习状态空间S和动作集A之间的输入 - 输出映射,从而评估可能的动作并选择一个动作来执行。
2.2 算法目标与性质
强化学习中学习算法的目标本质上是让智能体学习环境的动态,以便选择一组最优动作来实现目标或获得最大总奖励。时间差分学习算法被认为是一种价值函数学习算法。在其最基本的形式中,每个状态都被认为具有一个效用值,所学习的函数试图逼近每个状态的真
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



