复杂环境决策中的强化学习
1. 强化学习算法概述
强化学习中有一系列学习算法。首先是动态规划,它假设环境的转移动态(即 $p(s’,r|s, a)$)是已知的。但在大多数强化学习问题中,情况并非如此。为解决环境动态未知的问题,人们开发了通过与环境交互进行学习的强化学习技术,包括蒙特卡罗(MC)、时间差分(TD)学习,以及日益流行的 Q - 学习和深度 Q - 学习方法。以下是强化学习算法的发展历程:
graph LR
A[动态规划] --> B[MC学习]
B --> C[TD学习]
C --> D[Q - 学习]
C --> E[深度Q - 学习]
2. 动态规划
动态规划解决强化学习问题基于以下假设:
- 我们完全了解环境动态,即所有转移概率 $p(s’,r’|s, a)$ 已知。
- 智能体的状态具有马尔可夫性质,即下一个动作和奖励仅取决于当前状态和当前时刻所做的动作选择。
动态规划虽不是解决强化学习问题的实用方法,因为它假设对环境动态有全面了解,这在大多数实际应用中不现实。但从教育角度看,它有助于以简单方式引入强化学习,并推动更高级复杂算法的使用。其主要有两个目标:
1. 获取真实的状态价值函数 $v_{\pi}(s)$ :此任务也称为预测任务,通过策略评估完成。
2. 找到最优价值函数 $v^*(s)$ :通过广义策略迭代实现。
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



