
强化学习系列
文章平均质量分 88
强化学习零基础进阶
IE06
运筹+大数据+深度学习+机器学习+图像
展开
-
强化学习系列14:动态规划求解法
本文是强化学习系列1的举例补充。这里介绍可以求解连续决策问题的动态规划问题。原创 2023-03-30 14:15:05 · 590 阅读 · 1 评论 -
强化学习系列13:基于pytorch的框架“天授”
1. 基本架构1.1 架构图底层实现的关系如下:1.2 组件介绍(重要)1.2.1 数据组(Batch)数据组是平台内部各个模块之间传递数据的基本数据结构。它支持任意关键字初始化、对任意元素进行修改,以及嵌套调用和格式化输出的功能。如果数据组内各个元素值的第0维大小相等,还可支持切分(split)操作。数据组保留了如下7个关键字:obs:t 时刻的观测值 oto_tot;act: t 时刻策略采取的动作值 ata_tat;rew: t 时刻环境反馈的奖励值 rtr_trt;do原创 2021-06-16 16:01:53 · 2571 阅读 · 0 评论 -
强化学习系列12:使用julia训练深度强化模型
1. 介绍使用flux作为深度学习的框架,入门代码:using ReinforcementLearningrun(E`JuliaRL_BasicDQN_CartPole`)显示:This experiment uses three dense layers to approximate the Q value.The testing environment is CartPoleEnv. Agent and statistic info will be saved to: `/ho原创 2021-06-16 15:47:19 · 989 阅读 · 0 评论 -
强化学习系列11:从统计学习到深度学习
1. Keras简介Keras是一个非常容易上手的深度学习框架,下面基于tensorflow介绍keras的使用方法。首先是安装:pip install keras其次是简单的使用方法:from keras.models import Sequentialfrom keras.layers.core import Densemodel = Sequential() #定义序贯模型...原创 2019-02-15 17:29:11 · 1186 阅读 · 0 评论 -
强化学习系列10:无模型的直接策略搜索
1. 非参函数逼近法在非参函数逼近法中,不是提前确定好ϕ\phiϕ,而是每个样本会成为函数逼近的一部分,比如基于核的函数逼近公式是:ΣiαiyiK(x,xi)+b\Sigma_i\alpha_iy_iK(x,x_i)+bΣiαiyiK(x,xi)+b...原创 2019-01-07 20:10:40 · 1075 阅读 · 0 评论 -
强化学习系列9:无模型的参数函数法
1. 从表格到值函数模型原创 2019-01-06 14:24:43 · 644 阅读 · 0 评论 -
强化学习系列8:无模型的时序差分法
1. 修改计算公式蒙特卡洛法的计算公式如下:令qi=r0+γr1i+γ2r2i...q^i = r_0+\gamma r^i_1+\gamma ^2r^i_2...qi=r0+γr1i+γ2r2i...Qi=Qi−1+1i(qi−Qi−1)Q^i=Q^{i-1}+\frac{1}{i}(q^i-Q^{i-1})Qi=Qi−1+i1(qi−Qi−1)由于qiq^iqi计算的是长期回报...原创 2018-12-28 17:26:36 · 354 阅读 · 0 评论 -
强化学习系列7:无模型的蒙特卡洛法
1. 无模型问题在很多时候,我们无法得知模型信息,比如前几节的蛇棋中,我们不知道棋盘梯子的信息和骰子的信息,用数学化的方法来说,就是我们用于决策的智能体不知道状态转移概率PPP。2. 采样的方法2.1 计算公式当我们无法得知PPP的时候,一个直观的想法就是使用大量的采样去进行估计。为了方便,我们把策略迭代算法中策略评估的公式进行一下拆解:Q=P(R+γV)Q=P(R+\gamma V)...原创 2018-12-28 11:30:29 · 864 阅读 · 0 评论 -
强化学习系列6:有模型的价值迭代方法
1. 价值迭代算法价值迭代方法在迭代过程直接更新行动的值函数。那么它和上一节限制最大迭代次数为一的策略迭代有什么不同呢?策略迭代法的核心是策略,每一轮的价值计算出来是为了更新策略用的,直观来看代码上有更新策略Π\PiΠ的代码;而在价值迭代法中,核心是价值,每一轮迭代都是用上一轮的价值和这一轮的行动来更新价值VVV,收敛后才用这个数据来给出策略。价值迭代算法的核心公式为:V′=maxaΠP(...原创 2018-12-28 09:08:33 · 910 阅读 · 0 评论 -
强化学习系列5:有模型的策略迭代方法
1. 策略迭代算法这里策略迭代使用的是表格法,基本步骤是:用字典存储每个s的v值根据v值来选骰子策略迭代的步骤为:初始化VVV和Π\PiΠ进行一定次数的迭代。2.1 每次首先进行策略评估,不断按照Π\PiΠ更新VVV直至收敛,计算公式为V′=ΠP(R+γV)V'=\Pi P(R+\gamma V)V′=ΠP(R+γV)(当然也可以直接解方程进行计算,但是求逆比...原创 2018-12-27 21:18:39 · 1597 阅读 · 0 评论 -
强化学习系列4:蛇棋的例子
接下来的系列基于《强化学习精要:核心算法与TensorFlow实现》一书。这本书前面的章节部分都有python代码,非常推荐。1. 蛇棋案例我们有两个骰子,一个是常规的骰子(1-6各有1/6的概率出现,我们称之为正常骰子),另一个骰子是1~3,每个数字出现两次(也就是说1、2、3各有1/3的概率出现,我们称之为重复骰子)。我们需要选择一个骰子进行投掷。游戏从1出发,每次投到的多大的数字就往前...原创 2018-12-27 15:47:54 · 3459 阅读 · 0 评论 -
强化学习系列3:Google的Dopamine和Facebook的Horizon
#1. Spinning Up简介spinning up 的网址是:https://blog.openai.com/openai-scholars-2019/这是一个深度强化学习的很好的资源。#2. spinning up安装原创 2018-11-28 21:06:01 · 1357 阅读 · 1 评论 -
强化学习系列2:Open AI的gym框架、baselines和Spinning Up
1. gym介绍Openai gym 是一个用于开发和比较 强化学习算法的工具包,github地址点击这里。gym安装十分简单:pip install gymgym 的核心接口是 Env,作为统一的环境接口。Env 包含下面几个核心方法:1、reset(self):重置环境的状态,返回观察。2、step(self,action):推进一个时间步长,返回 observation,rewa...原创 2018-10-11 22:57:59 · 7317 阅读 · 1 评论 -
强化学习系列1:强化学习简介
1. 矩阵相关首先了解一下矩阵AAA特征值λ\lambdaλ和特征向量eee: Ae=λeAe=\lambda eAe=λe。对于变换AAA,只有伸缩而没有旋转。此外,对称矩阵的特征向量相互正交。根据这个特性,可以将对称矩阵对角化,即对角线为特征值,其余位置都为0。对角化之后,矩阵求阶乘简单多了:An=EΛnEA^n = E \Lambda^n EAn=EΛnE2. 概率论相关概率可以表示...原创 2018-12-24 16:24:03 · 1337 阅读 · 0 评论