
强化学习
文章平均质量分 80
无心留踪迹
be patient
展开
-
强化学习之——Q-Learning(基础部分)
状态转移概率:从掌握到放弃 前几篇介绍了基于马尔可夫决策的强化学习框架,我们发现解决的问题有一个特点,我们是知道环境运转的细节的,具体就是我们知道状态转移概率,也就是P(St+1∣St,at)P(S_{t+1}|S_t,a_t)P(St+1∣St,at)。对于蛇棋这个游戏,我们可以看到前方是上升梯子还是下降梯子,然后选择对应的投掷手法来接近或者避开,相当于站在上帝视角。 但是现实情况下,很多时候我们不知道这个状态转移概率。一般,我们将知道状态转移概率的问题称为”基于模型“ 的问题(Model-ba原创 2021-04-20 12:02:35 · 2011 阅读 · 0 评论 -
强化学习之——表格式Agent实现
什么是表格式Agent? 以蛇棋问题为例,棋盘上有100个格子,所以问题一共有100个离散的状态;投掷骰子的手法也是有限的(这里规定可以投1~ 3和1~6两种手法),因此也可以用离散的手法表示出来。因此,对所有的实体(状态、行动、策略、状态转移概率),都可以用N维张量的形式表示。 譬如对于策略π(a|s)是一个条件概率分布,可以用一个|S| × |A|的矩阵表示(|S|是状态数量,|A|是动作数量)。矩阵里的每个数值都介于0到1之间,而且每一行的和都为1。对于状态转移p(st+1∣st,at)p(s_{原创 2021-04-18 12:41:13 · 386 阅读 · 0 评论 -
强化学习之——马尔可夫决策过程原理
强化学习之——马尔可夫决策过程原理与实现(1.1 MDP:策略与环境模型我们以蛇棋为模型引入——蛇棋的关键问题在于:哪些因素决定了蛇棋最终获得分数的多少? 两个因素选择什么样的手法投掷(也就是投3以内的数 或 6以内的数)投掷出的数目1是玩家可以决定的(我们这里把情况想得简单点,认为可以通过某种手法使得投出两种策略2是玩家不可控的,只受环境的随机性控制(骰子投出具体的点数你不能决定)新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我原创 2021-04-18 11:52:35 · 476 阅读 · 0 评论