强化学习:学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境最大的奖赏,使得外部环境对学习系统在某种意义下的评价为最佳。
强化学习是一种计算方法,若只有从交互中学习的想法只能称为强化学习思想,而并不能称之为强化学习。
监督学习是从标注中学习,侧重于泛化性能,区别于监督学习,强化学习是从交互中学习。
监督学习:标注数据,用户给的反馈->预测函数
无监督学习:无标签,无反馈->数据固有的结构
强化学习:决策过程,奖励系统->什么状态下采取什么动作
强化学习的特性:试错搜索,延迟奖励->判断是否适用于强化学习求解
应对的挑战:①探索(exploration)和利用(exploitation)困境;②不能分解成子问题求解
强化学习发展历程:
- 1911年,提出效果律,从心理学角度探讨强化思想:感到舒服的行为会被强化,感到不舒服的行为会被弱化;
- 1954年,马文明斯基实现了试错学习;
- 1957年,贝尔曼提出求解最优控制问题的动态规划方法和马尔科夫决策过程;
- 1960年,霍华德提出了马尔科夫决策过程的策略迭代方法;
- 1961年,马文明斯基提出Reinforcement Learning一词;
- 1989年,Watkins提出了Q-learning,将动态规划、时序差分、蒙特卡洛模拟三条线结合在一起;
- 1992年,强化学习战胜西洋双陆棋;
- 2015年,强化学习和深度学习结合:AlphaGo
- 2017年,AlphaGo Zero
多臂赌博机:摇臂期望累积奖励最大——广告、新闻投放
强化学习的简化场景——行为和状态之间没有关联关系
克服贪心策略带来的exploration不足的问题->ε贪心策略:以ε
的概率进行探索,以1-ε
的概率按照贪心策略进行行为选择,ε
的取值取决于q*(a)
的方差,方差越大取值越大
贪心策略的增量式实现:上一次的估计+步长*(回报-上一次的估值)=这一次的估计
其中步长可以用参数α或αt(a)
表示
平稳问题:q*a是稳定的,不随时间变化的,随着观测样本的增加,平均值估计方法最终收敛于q*(a)
——多臂赌博机
非平稳问题:q*a是关于时间的函数,对q*(a)
的估计需要更关注最近的观测样本——MDP
非平稳的行为估值:Qn+1=Qn+α[Rn-Qn],其本身就偏向于最近的观测样本
选择保证收敛的更新步长:n=1∞αna=∞ and n=1∞αn2a<∞
其中第一个条件保证步长足够大,克服初值或随机扰动的影响,第二个条件保证步长最终会越来越小,小到保证收敛
乐观初值法:为每个行为赋一个高的初始估值,好处是初期每个行为都有较大机会被探索
UCB(Upper-Confidence-Bound)行为选择策略:
UCB策略一般会优于ε贪心策略,不过最初几轮相对较差,但实现起来较复杂,因此除了多臂赌博机之外的强化学习场景应用较少