文章目录
促成
强化学习是什么问题
马尔科夫决策过程
智能体 、 环境、 动作、 收益、 状态
状态
收益
部分可观测马尔科夫决策过程
增加了一个观测 , 取决于当前状态
可能是一个状态变量的子集, 只有一个部分是可观测的
VS 监督学习、 无监督学习
监督学习: 针对当前系统的带标注的各种样本
无监督学习: 没有标注的数据中寻找到隐含结构
聚类,找到数据的划分
强化学习: 需要去探索, 最大化, 不断尝试 , 最大化收益。
特点
1、试探与开发
为了获得更好的动作选择空间, 需要探索新的动作。
在开发过的动作基础上, 选择新的动作。
2、 智能体和环境的交互问题
从智能体出发、 感知并影响环境。
注重于学习环境特征。
3、 与其他工程 如 , 舒学成统计学、 优化理论、 心理学、神经科学交互。
要素
1、 策略 派(a|s)
环境状态到动作的映射
action -> state
2、 收益信号 R(S,a)
定义了强化学习的目标
3、 价值函数
长期总收益的期望 E(GT )
** need
4、 对环境监理的模型
对环境行为的推断
应用实例
问题 井字棋
传统解决办法 : 极大极小算法
使用固定评估方法 构建决策树
动态规划方法 : 序列决策问题, 在充分了解对手的前提下, 知道对手在每种状态下的概率, 使用置信度计算最优届。
进化方法: 遗传算法, 博弈过程中不改变决策, 根据结果改变策略, 爬山搜索
强化学习方法:
状态-价值表 (状态 + 获胜概率)
选择动作
开发 vs 试探
更新状态价值表
回溯型方法
箭头琐事
更新价值
St状态的价值
A 状态的价值更加接近于 C
固定价值的策略对手, 动作是确定的
对手会缓慢改变策略
在博弈过程中更新策略, 状态价值表, 就是最后学到的策略。
每一个状态都是评估的方法。
强化学习早期历史
1、 试错学习
效应定律 1911
快乐痛苦系统 1948
minsky , 1960 , Steps toward AI
自动学习机
2、 最优控制理论
动态规划
马尔可夫决策过程 是动态规划的离散随机
自适应动态规划 、
融合了强化学习 和动态规划的思想、 解决了动态规划维度灾难的难题
自适应、 在系统上迭代执行。
Q学习算法
3、 时序差分学习
利用将来的奖励 共同计算价值
当前状态的价值 + 下一步的状态价值