百度强化学习总结

本文从强化学习的基本概念出发,对比了强化学习与监督学习的区别,并详细介绍了模型基与模型自由、策略类型。重点讲解了表格型方法如Sarsa,Q-learning及其进化版DQN,以及策略梯度和连续动作强化学习DDPG。

虽然看过周志华的机器学习中强化学习一章,但仍然对一些概念不是很清楚,通过这次百度组织的强化学习课程,从代码的角度对强化学习有了一些更深的体会。下面把我对强化学习相关知识作个梳理。

一、相关概念

1、定义:智能体通过在环境中不断尝试而学得一个“策略,根据这个策略,在状态x下就能得到要执行的动作a。其关关键是如何学习到一个好的策略。

四元素<S,A,P,R>  两个空间,两个函数

S: 智能体在环境中的状态

A:动作空间

P:状态转移概率, S*A*S->R

R: 执行动作所获得的奖励。也是一个函数。

2、强化学习与监督学习的区别

   强化学习在学习过程中并没有监督学习中的有标记样本,而是在等到最终结果出现之后,才能通过反思之前的动作是否正确的学习。

3、强化学习分类

1)model-based and model-free

   Model-based: model是已知的,也即状态转移概率是已知的,该转移所带来的奖赏也是已知的。在算法上,不需要更新两个函数

   而model-free:model是要学习的,在算法上要更新两个函数。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值