MATLAB强化学习工具箱
文章平均质量分 78
MATLAB强化学习工具箱
阿丁小哥
日拱一卒,日行一米。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【MATLAB强化学习工具箱】学习笔记--actor网络和critic网络的结果放在哪里?
原算例见【MATLAB强化学习工具箱】学习笔记--在Simulink环境中训练智能体Create Simulink Environment and Train Agent_bear_miao的博客-优快云博客Simulink中便于搭建各类动力学与控制模型,通过将原有的控制器替换为AI控制器,可以方便使用已有模型,提供增量效果。本节的重点是如何引入Simulink模型作为env,其他的内容在之前的文章中已有说明。以水箱模型watertank为例,如下图所示:采用PI控制器,控制效果如下所示:将此PI控制原创 2021-11-18 23:39:34 · 3700 阅读 · 1 评论 -
【MATLAB强化学习工具箱】学习笔记--在Simulink环境中训练智能体【进一步说明-分析基线】
原文章见如下链接【MATLAB强化学习工具箱】学习笔记--在Simulink环境中训练智能体【进一步说明】https://mp.youkuaiyun.com/mp_blog/creation/editor/121349410在上文中已对m文件与simulink的接口、水箱模型、奖励函数、控制效果等方面进行了分析,本文专门对分析基线进行分析。分析基线为帮助文档中的示例结果,如下所示。奖励函数:(1)。具体参数如下(2)具体参数如下。(3)应是即刻达到了最优条件,注水与放水速率...原创 2021-11-16 20:05:08 · 1389 阅读 · 0 评论 -
【MATLAB强化学习工具箱】学习笔记--随机数种子是如何设置的?
介绍在MATLAB强化学习工具箱的大部分demo中,都有对随机数种子的重置。在【MATLAB深度学习工具箱】学习笔记--体脂估计Body Fat Estimation_bear_miao的博客-优快云博客介绍本示例展示一个函数拟合神经网络如何根据解剖学测量结果估计体脂。【注:关键词:多维数据 函数拟合 神经网络】问题描述在本例子中根据如下13种身体特征评估体脂。【注:具体的属性特征对学习此解决问题的逻辑影响并不大,知道是许多相关或不相关的多维度特征即可】Age (years)Weight (lbs原创 2021-11-16 14:59:13 · 5945 阅读 · 0 评论 -
【MATLAB强化学习工具箱】学习笔记--在Simulink环境中训练智能体【进一步说明】
原文章见以下链接【MATLAB强化学习工具箱】学习笔记--在Simulink环境中训练智能体Create Simulink Environment and Train Agent_bear_miao的博客-优快云博客Simulink中便于搭建各类动力学与控制模型,通过将原有的控制器替换为AI控制器,可以方便使用已有模型,提供增量效果。本节的重点是如何引入Simulink模型作为env,其他的内容在之前的文章中已有说明。以水箱模型watertank为例,如下图所示:采用PI控制器,控制效果如下所示:将此PI原创 2021-11-16 14:09:12 · 5240 阅读 · 0 评论 -
【MATLAB强化学习工具箱】学习笔记--在Simulink环境中训练智能体Create Simulink Environment and Train Agent
Simulink中便于搭建各类动力学与控制模型,通过将原有的控制器替换为AI控制器,可以方便使用已有模型,提供增量效果。本节的重点是如何引入Simulink模型作为env,其他的内容在之前的文章中已有说明。以水箱模型watertank为例,如下图所示:采用PI控制器,控制效果如下所示:将此PI控制器替换为神经网络控制器后,系统架构如下图所示:具体替换策略如下所示:(1)删去PID控制器;(2)增加RL Agent模块;(3)观测器模块:观测向量为:,其中...原创 2021-11-15 20:57:08 · 12156 阅读 · 13 评论 -
【MATLAB强化学习工具箱】学习笔记--训练DDPG智能体控制二阶双积分系统Train DDPG Agent to Control Double Integrator System
DDPG是deep deterministic policy gradient深度确定性策略梯度算法的缩写。环境控制目标是通过力输入控制一个质量块的位置。env = rlPredefinedEnv("DoubleIntegrator-Continuous")质量块做一维运动,边界为[-4m,+4m];可观测量为质量块的位置和速度;迭代终止条件:质量块移动距离超过5m或;每一个时间步长的奖励由下式定义:其中:是质量块的状态向量;是施加的力;是控制性能的权.原创 2021-11-15 16:29:48 · 3963 阅读 · 3 评论 -
【MATLAB强化学习工具箱】学习笔记--在MDP环境训练强化学习智能体Train Reinforcement Learning Agent in MDP Environment
介绍MDP是Markov decision process马尔科夫决策过程的缩写。本示例在马尔科夫决策过程中训练一个智能体。问题定义MDP = createMDP(8,["up";"down"]);createMDP函数的用法为:SyntaxMDP = createMDP(states,actions)8为states的个数;“up”、“down”为两个可能的动作;在createMDP中通过.T和.R两个方法构建转移矩阵和奖励矩阵。其中,为当前状态,..原创 2021-11-15 12:39:35 · 2036 阅读 · 0 评论 -
【MATLAB强化学习工具箱】学习笔记--在基础网格环境训练强化学习智能体Train Reinforcement Learning Agent in Basic Grid World
【说明:这是强化学习工具箱的第一个基本示例,体系了大量设计要素。】生成envenv是强化学习的环境、world、动力学、边界,定义了操作空间。env = rlPredefinedEnv("BasicGridWorld");plot(env)【说明:plot(env)打开env图片之后,不要关闭,否则在train环节一直报错误。Error using matlab.graphics.primitive.Patch/set Invalid or deleted object.目前还不清楚原因原创 2021-11-14 23:23:44 · 2318 阅读 · 0 评论
分享