
强化学习
文章平均质量分 96
草帽KIKI
这个作者很懒,什么都没留下…
展开
-
《强化学习》第七章 n步自举法
文章目录第七章 n步自举法7.1 n步时序差分预测练习7.1练习7.2(编程)例7.1 n步时序差分方法在随机游走上的应用练习7.37.2 n步Sarsa练习7.47.3 n步离轨策略学习7.4 * 带控制变量的每次决策型方法练习7.5练习7.6* 练习7.7练习7.8练习7.9练习7.10(编程)7.5 不需要使用重要度采样的离轨策略学习方法:n步树回溯算法练习 7.117.6 * 一个统一的算法:n步Q(σ)7.7 本章小结第七章 n步自举法在本章中,我们将统一前两章介绍的两种方法。单独的蒙特卡洛方原创 2022-01-14 17:02:50 · 1384 阅读 · 0 评论 -
《强化学习》第6章 时序差分学习
本章是《强化学习》第六章时序差分的内容。原创 2021-12-30 17:14:47 · 1834 阅读 · 0 评论 -
《强化学习》第五章 蒙特卡洛方法
第五章 蒙特卡洛方法文章目录第五章 蒙特卡洛方法5.1 蒙特卡洛预测例5.1 二十一点练习 5.1练习5.2例5.2 肥皂泡5.2 动作价值的蒙特卡洛估计练习5.35.3 蒙特卡洛控制练习5.4例5.3 解决二十一点问题5.4 没有试探性出发假设的蒙特卡洛控制5.5 基于重要度采样的离轨策略练习5.5例5.4 对二十一点游戏中的状态值的离轨策略估计例5.5 无穷方差练习 5.6练习5.7练习5.85.6 增量式实现练习5.9练习5.105.7 离轨策略蒙特卡洛控制练习5.11练习5.12(编程)*折扣敏感原创 2021-12-11 16:27:44 · 6798 阅读 · 0 评论 -
《强化学习》第四章 动态规划
动态规划(Dynamic Programming,DP)是一类优化方法,在给定一个用马尔科夫决策过程(MDP)描述的完备环境模型的情况下,其可以计算最优的策略。本章中,我们假设环境是一个有限MDP。也就是说,我们假设状态集合S、动作集合A和收益集合R是有限的,并且整个系统的动态特性由对于任意s∈S、a∈A(s)、r∈R和s′∈S+(S+s \in S、a \in A(s)、r \in R 和s' \in S^+(S^+s∈S、a∈A(s)、r∈R和s′∈S+(S+表示在分幕式任务下S加上一个终止状态)的四原创 2021-11-28 21:25:52 · 3039 阅读 · 1 评论 -
第三章 有限马尔科夫决策过程
文章目录3.1 “智能体-环境”交互接口例3.1 生物反应器例3.2 拾放机器人练习3.1练习3.2练习3.3例 3.3 回收机器人3.2 目标和收益练习3.43.3 回报和分幕练习3.5例3.4 杆平衡练习3.6练习3.7练习3.8练习3.9练习3.103.4 分幕式和持续性任务的统一表示法3.5 策略和价值函数练习 3.11练习 3.12练习3.13例 3.5 网格问题练习3.14练习3.15练习 3.16例 3.6 高尔夫练习3.17练习3.18练习3.193.6 最优策略和最优价值函数例 3.7 高原创 2021-11-23 09:41:23 · 2798 阅读 · 0 评论 -
第一部分 表格型求解方法: 第二章 多臂赌博机
第二章 多臂赌博机第一部分表格型求解方法主要介绍简单强化学习所使用的算法的核心思想,这种问题可以找到最优价值函数和最优策略。在其他部分,将会介绍只能找到近似解的复杂(较大规模的动作和状态空间)强化学习问题2.1 一个k臂赌博机问题强化学习与其他机器学习方法不同的一点就在于,前者的训练信号是用来评估给定动作的好坏的,而不是通过给出正确动作范例来进行直接的指导。多臂赌博机只有一个状态(非关联性),属于一种非关联性的评估性反馈问题,适合作为一个简化的问题来介绍强化学习,之后会之间探讨完整的强化学习问题。原创 2021-11-15 11:21:04 · 1140 阅读 · 0 评论 -
David Silver强化学习——介绍
本系列博客是强化学习的学习笔记,学习资料:David Silver深度强化算法学习 +项目讲解强化学习基本介绍多领域交叉机器学习的分支强化学习的特点强化学习的例子强化学习中的核心概念奖励奖励的例子贯序决策环境状态 - State历史和状态环境状态 - Environment State智能体状态 - Agent State信息状态 - Information State例子:老鼠全观测环境 - Fully Observable Environments部分观测环境 - Partially Observa原创 2021-11-06 22:00:34 · 3220 阅读 · 0 评论