强化学习的基础总结(一)
@(Machine Learning)
机器学习从大类上来分,可以有三种:
- 监督学习
- 无监督学习
- 强化学习
现在关注强化学习。强化学习泛泛来说,是一种决策方法。
Q:强化学习的与众不同之处是什么?
A:有以下几点。
- 无监督。只有奖励信号。而不是监督学习中的标记空间。
- 延迟反馈。奖励系统针对的是行为(action),是一种对动态的评价。
- 时间很重要。强化学习是用连续型数据,而不是独立同分布的数据。
- agent的行为影响受到的子序列数据。即:不同的action可以推导出不同的数据序列。
强化学习构建基础
RL构建在奖励假说(reward hypothesis)上.
所谓的奖励假说是:
All goals can be described by the maximisation of expected cumulative reward.
如何评价一个智能体是好是坏是RL的一个核心问题。所以提出了RL问题的目标(goal):最大化累计奖励。
所以,当思考强化学习算法时,要始终把这个核心问题放在优先位置进行考虑。一切问题也都由此出发:无论算法有多么不同,核心目标都是为了解决最大化累积奖励。
序贯判定(sequential decision making)
我们前面笼统地说了RL问题的核心目标,偏向抽象一些,而具体落实到算法上时,我们都用数学的方法来量化目标。
比如这里的方法是:选择一系列行为,最大化总的累计奖励。
遵循三个简单原则:
- 行为可能有长远的影响(当前可能不带来最优效益甚至是于收益有损)
- 奖励有延迟
- 牺牲短期利益获得长期利益会更好
智能体和环境(Agent and Environment)
在RL系统中,agent和环境是两个大组成部分。
每一步,二者需要执行的动作是不同的。
agent:
- 执行At
- 接收观察值Ot
- 接收标量奖励