虽然看过周志华的机器学习中强化学习一章,但仍然对一些概念不是很清楚,通过这次百度组织的强化学习课程,从代码的角度对强化学习有了一些更深的体会。下面把我对强化学习相关知识作个梳理。
一、相关概念
1、定义:智能体通过在环境中不断尝试而学得一个“策略,根据这个策略,在状态x下就能得到要执行的动作a。其关关键是如何学习到一个好的策略。
四元素<S,A,P,R> 两个空间,两个函数
S: 智能体在环境中的状态
A:动作空间
P:状态转移概率, S*A*S->R
R: 执行动作所获得的奖励。也是一个函数。
2、强化学习与监督学习的区别
强化学习在学习过程中并没有监督学习中的有标记样本,而是在等到最终结果出现之后,才能通过反思之前的动作是否正确的学习。
3、强化学习分类
1)model-based and model-free
Model-based: model是已知的,也即状态转移概率是已知的,该转移所带来的奖赏也是已知的。在算法上,不需要更新两个函数
而model-free:model是要学习的,在算法上要更新两个函数。

本文从强化学习的基本概念出发,对比了强化学习与监督学习的区别,并详细介绍了模型基与模型自由、策略类型。重点讲解了表格型方法如Sarsa,Q-learning及其进化版DQN,以及策略梯度和连续动作强化学习DDPG。
最低0.47元/天 解锁文章
1234

被折叠的 条评论
为什么被折叠?



