
强化学习
文章平均质量分 81
小了白了兔_白了又了白
这个作者很懒,什么都没留下…
展开
-
《强化学习》-读书笔记-第三章 有限马尔科夫决策过程
三. 有限马尔科夫决策过程(有限MDP)目标和收益回报和分幕策略和价值函数最优策略与最优价值函数 三. 有限马尔科夫决策过程(有限MDP) 在有限MDP中,状态、动作和收益的集合(SSS、AAA和RRR)都只有有限个元素。 p(s′,r∣s,a)=Pr{St=s′,Rt=r∣St−1=s,At−1=a} p(s',r|s,a)=Pr\{S_t=s',R_t=r|S_{t-1}=s,A_{t-1}=a\} p(s′,r∣s,a)=Pr{St=s′,Rt=r∣St−1=s,At−1=a} StS_tS.原创 2022-02-13 11:35:27 · 848 阅读 · 0 评论 -
《强化学习》-读书笔记-第二章 多臂赌博机
二. 多臂赌博机2.1 一个k臂赌博机问题增量式实现跟踪一个非平稳问题乐观初始值基于置信度上界(UCB)的动作选择梯度赌博机算法 二. 多臂赌博机 2.1 一个k臂赌博机问题 重复的在K个动作中进行选择,每一次选择后都会得到一定数值的收益,目标是在一段时间内最大化总收益的期望(隐含背景:每个动作的平均收益不同)。 K个动作中每一个被选择时有一个期望收益或平均收益,称为该动作的“价值”。 如果知道每个动作的价值,每次选择直接选价值最高的动作; 如果不知道每个动作的价值,就对每个动作的价值进行估计; 每次.原创 2022-02-13 11:33:35 · 721 阅读 · 0 评论 -
《强化学习》-读书笔记-第一章 导论
一. 导论1.1 强化学习1.2 示例1.3 强化学习要素1.4 局限性和适用范围1.5 扩展实例:井字棋1.6 本章小结1.7 强化学习的早期历史 一. 导论 在交互中学习是几乎所有学习和智能理论的基本思想。 本书研究在交互中学习的计算性方法,强化学习相比于其他机器学习方法,更加侧重于以交互目标为导向进行学习。 1.1 强化学习 强化学习就是学习“做什么才能使得数值化的收益信号最大化” 强化学习最重要的两个特征:试错和延迟收益 强化学习既不同于监督学习,又不同无监督学习,属于第三种机器学习范式.原创 2022-02-13 10:51:40 · 530 阅读 · 0 评论 -
《强化学习》-读书笔记-总目录
章节目录1. 导论I 表格型求解方法2. 多臂赌博机K臂赌博机增量式实现跟踪一个非平稳问题乐观初始值基于置信度上界(UCB)的动作选择梯度赌博机算法3. 有限马尔科夫决策过程(有限MDP)目标和收益回报和分幕策略和价值函数最优策略与最优价值函数 1. 导论 参考书籍:https://item.jd.com/12696004.html 在交互中学习是几乎所有学习和智能理论的基本思想,强化学习相比于其他机器学习方法,更加侧重于以交互目标为导向进行学习。 强化学习四要素:策略、收益、价值函数、环境模型。 策略:原创 2020-12-30 17:24:30 · 810 阅读 · 0 评论