报告记录-【强化学习】导论 (不全)

促成

强化学习是什么问题

马尔科夫决策过程

智能体 、 环境、 动作、 收益、 状态

状态

收益

部分可观测马尔科夫决策过程

增加了一个观测 , 取决于当前状态

可能是一个状态变量的子集, 只有一个部分是可观测的

VS 监督学习、 无监督学习

监督学习: 针对当前系统的带标注的各种样本

无监督学习: 没有标注的数据中寻找到隐含结构

聚类,找到数据的划分

强化学习: 需要去探索, 最大化, 不断尝试 , 最大化收益。

特点

1、试探与开发

为了获得更好的动作选择空间, 需要探索新的动作。

在开发过的动作基础上, 选择新的动作。

2、 智能体和环境的交互问题

从智能体出发、 感知并影响环境。

注重于学习环境特征。

3、 与其他工程 如 , 舒学成统计学、 优化理论、 心理学、神经科学交互。

要素

1、 策略 派(a|s)

环境状态到动作的映射
action -> state

2、 收益信号 R(S,a)

定义了强化学习的目标

3、 价值函数

长期总收益的期望 E(GT )

** need

4、 对环境监理的模型

对环境行为的推断

应用实例

问题 井字棋

传统解决办法 : 极大极小算法
使用固定评估方法 构建决策树

动态规划方法 : 序列决策问题, 在充分了解对手的前提下, 知道对手在每种状态下的概率, 使用置信度计算最优届。

进化方法: 遗传算法, 博弈过程中不改变决策, 根据结果改变策略, 爬山搜索

强化学习方法:

状态-价值表 (状态 + 获胜概率)
选择动作

开发 vs 试探

更新状态价值表

回溯型方法
箭头琐事

更新价值

St状态的价值

A 状态的价值更加接近于 C
固定价值的策略对手, 动作是确定的
对手会缓慢改变策略

在博弈过程中更新策略, 状态价值表, 就是最后学到的策略。
每一个状态都是评估的方法。

强化学习早期历史

1、 试错学习

效应定律 1911
快乐痛苦系统 1948
minsky , 1960 , Steps toward AI
自动学习机

2、 最优控制理论

动态规划
马尔可夫决策过程 是动态规划的离散随机
自适应动态规划 、

融合了强化学习 和动态规划的思想、 解决了动态规划维度灾难的难题

自适应、 在系统上迭代执行。

Q学习算法

3、 时序差分学习

利用将来的奖励 共同计算价值

当前状态的价值 + 下一步的状态价值

心理学的规律 可以应用过来 Minsky
时序差分思想的跳棋程序

Q学习 - 整合

总结

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值