什么是强化学习
强化学习是机器学习中的一个分支, 机器通过不断地尝试, 从错误中学习, 最后找到规律, 学会了达到目的的方法. Alpha go就是强化学习的应用实例。
强化学习的设置由两部分组成,一个是智能体(agent),即强化学习算法;另一个是环境,指的是agent执行动作时所处的场景(如游戏本身)。环境首先向智能体发送一个状态,然后智能体基于其知识采取动作来响应该状态。之后,环境发送下一个状态,并把奖励返回给智能体。智能体用环境所返回的奖励来更新其知识,对上一个动作进行评估。这个循环一直持续,直到环境发送终止状态来结束这个事件。
VS其它机器学习方法
下面通过与监督学习和非监督学习对比来更直观的理解强化学习。
监督学习vs强化学习
在监督学习中,已经有了数据和数据对应的正确标签,机器可以学习到数据和标签的对应关系。但强化学习一开始并没有数据和标签,像棋类游戏中,存在数万种组合,不可能为每种可能都创建标签。这就需要设法从自己的经历中学习,并以此获得所需的知识。另外在监督学习和强化学习中,输入和输出之间都存在映射。但是在强化学习中,存在的是对智能体的奖励反馈函数,而监督学习是直接告诉智能体准确答案。
非监督学习vs强化学习
在强化学习中,有一个从输入到输出的映射过程,但是这个过程在无监督学习中是不存在的。在无监督学习中,主要任务是找到一种最基本的模式,而不是映射关系。
主要算法和类别
强化学习是一个大家族, 他包含了很多种算法, 下面我们通过分类的方式来了解他们的区别。
根据有没有环境的动态模拟(即模型学习从当前状态 s0 和动作 a 到下一个状态 s1 的转移概率 )可以分为:
Mode