强化学习
-
试错和延迟收益是强化学习两个最重要最显著的特征。
-
强化学习既表示一个问题,又是一类解决问题的方法,同时还是一个研究此问题及其解决方法的领域。
-
区分“问题”和“解决方法”,在强化学习中十分重要。
-
马尔可夫决策过程包含三方面——感知、动作和目标。
-
强化学习目的是最大化收益信号,而不是找出数据的隐含结构。
-
基于一般原则的方法,比如搜索或学习,被定性为“弱方法”;而基于知识的方法则被称为“强方法”。
强化学习要素
-
在个体和环境之外,强化学习系统一般有四个要素:策略、收益信号、价值函数、环境模型。
-
策略:定义学习智能体在给定时间内行为方式。
-
收益信号:定义强化学习问题中的目标。
-
价值函数:定义长期收益,收益信号表明直接意义上的好处。
-
没有收益就没有价值,而评估价值的唯一目的就是获得更多的收益
-
环境模型:对环境的模拟,它对环境的行为做出推断。例如给定状态和动作,模型可以预测结果的下一个状态和下一个收益。
局限性与适用范围
- 强化学习十分依赖“状态”这个概念,它既作为策略和价值函数的输入,又同时作为模型的输入与输出。
- 强化学习方法,是在与环境互动中学习的一类方法。
- 进化方法就其自身而言并不适用于强化学习问题。
扩展示例:井子祺
- 前一状态的当前值被更新为更接近后续状态的值,这可以通过先前状态的值移动到稍后状态的值的一小部分来完成。如果我们让
S
t
S_t
St表示贪婪移动之前的状态,而
S
t
+
1
S_{t+1}
St+1表示移动之后的状态,那么将
S
t
S_t
St的估计值更新表示为
V
(
S
t
)
V(S_t)
V(St),可以写为:
V ( S t ) = V ( S t ) + α [ V ( S t + 1 ) − V ( S t ) ] V(S_t) = V(S_t) + \alpha\left[V(S_{t+1})-V(S_t)\right] V(St)=V(St)+α[V(St+1)−V(St)]
α \alpha α为学习率,此更新规则为时序差分学习方法的一个例子,因为其变化基于两个连续时间的估计之间的差,即: [ V ( S t + 1 ) − V ( S t ) ] \left[V(S_{t+1})-V(S_t)\right] [V(St+1)−V(St)]
本章小节
- 强化学习是一种对目标导向的学习与决策问题进行理解和自动化处理的计算方法。
- 强化学习使用马尔可夫决策过程的形式化框架,使用状态、动作和收益定义学习型智能体与环境的互动过程。