沈华伟老师强化学习课程笔记总结

强化学习:学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境最大的奖赏,使得外部环境对学习系统在某种意义下的评价为最佳。

强化学习是一种计算方法,若只有从交互中学习的想法只能称为强化学习思想,而并不能称之为强化学习。

监督学习是从标注中学习,侧重于泛化性能,区别于监督学习,强化学习是从交互中学习。

 

监督学习:标注数据,用户给的反馈->预测函数

无监督学习:无标签,无反馈->数据固有的结构

强化学习:决策过程,奖励系统->什么状态下采取什么动作

 

强化学习的特性:试错搜索,延迟奖励->判断是否适用于强化学习求解

应对的挑战:①探索(exploration)和利用(exploitation)困境;②不能分解成子问题求解

 

强化学习发展历程:

  • 1911年,提出效果律,从心理学角度探讨强化思想:感到舒服的行为会被强化,感到不舒服的行为会被弱化;
  • 1954年,马文明斯基实现了试错学习;
  • 1957年,贝尔曼提出求解最优控制问题的动态规划方法和马尔科夫决策过程;
  • 1960年,霍华德提出了马尔科夫决策过程的策略迭代方法;
  • 1961年,马文明斯基提出Reinforcement Learning一词;
  • 1989年,Watkins提出了Q-learning,将动态规划、时序差分、蒙特卡洛模拟三条线结合在一起;
  • 1992年,强化学习战胜西洋双陆棋;
  • 2015年,强化学习和深度学习结合:AlphaGo
  • 2017年,AlphaGo Zero

 

多臂赌博机:摇臂期望累积奖励最大——广告、新闻投放

强化学习的简化场景——行为和状态之间没有关联关系

 

克服贪心策略带来的exploration不足的问题->ε贪心策略:以ε的概率进行探索,以1-ε的概率按照贪心策略进行行为选择,ε的取值取决于q*(a)的方差,方差越大取值越大

贪心策略的增量式实现:上一次的估计+步长*(回报-上一次的估值)=这一次的估计

其中步长可以用参数ααt(a)表示

 

平稳问题:q*a是稳定的,不随时间变化的,随着观测样本的增加,平均值估计方法最终收敛于q*(a)——多臂赌博机

非平稳问题:q*a是关于时间的函数,对q*(a)的估计需要更关注最近的观测样本——MDP

非平稳的行为估值:Qn+1=Qn+α[Rn-Qn],其本身就偏向于最近的观测样本

选择保证收敛的更新步长:n=1αna=∞ and n=1αn2a<∞

其中第一个条件保证步长足够大,克服初值或随机扰动的影响,第二个条件保证步长最终会越来越小,小到保证收敛

 

乐观初值法:为每个行为赋一个高的初始估值,好处是初期每个行为都有较大机会被探索

UCB(Upper-Confidence-Bound)行为选择策略:

UCB策略一般会优于ε贪心策略,不过最初几轮相对较差,但实现起来较复杂,因此除了多臂赌博机之外的强化学习场景应用较少

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值