
强化学习
文章平均质量分 63
count_on_me
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
网格环境创建
import loggingimport numpyimport randomfrom gym import spacesimport gymlogger = logging.getLogger(__name__)class GridEnv(gym.Env): metadata = { 'render.modes': ['human', 'rgb_array'], 'video.frames_per_second': 2 } def.转载 2020-11-02 16:24:37 · 334 阅读 · 0 评论 -
强化学习环境的创建---cart-pole
"""Classic cart-pole system implemented by Rich Sutton et al.Copied from http://incompleteideas.net/sutton/book/code/pole.cpermalink: https://perma.cc/C9ZM-652R"""import mathimport gymfrom gym import spaces, loggerfrom gym.utils import seedingim.原创 2020-11-02 16:22:06 · 700 阅读 · 0 评论 -
《强化学习》第四讲:不基于模型的预测
简介 Introduction通过先前的讲解,我们明白了如何从理论上解决一个已知的MDP:通过动态规划来评估一个给定的策略,并且得到最优价值函数,根据最优价值函数来确定最优策略;也可以直接进行不基于任何策略的状态价值迭代得到最优价值函数和最优策略。从本讲开始将花连续两讲的时间讨论解决一个可以被认为是MDP、但却不掌握MDP具体细节的问题,也就是讲述如何直接从Agent与环境的交互来得得到一...原创 2019-01-23 10:50:32 · 968 阅读 · 0 评论 -
《强化学习》第三讲:动态规划寻找最优策略
本讲着重讲解了利用动态规划来进行强化学习,具体是进行强化学习中的“规划”,也就是在已知模型的基础上判断一个策略的价值函数,并在此基础上寻找到最优的策略和最优价值函数,或者直接寻找最优策略和最优价值函数(即我们所说的策略迭代和价值迭代)。本讲是整个强化学习课程核心内容的引子,侧重点为策略迭代和值迭代方法的理解和实现。简介 Introduction动态规划算法是解决复杂问题的一个方法,算法通过...原创 2019-01-23 10:48:16 · 6422 阅读 · 0 评论 -
《强化学习》第二讲 马尔科夫决策过程
在强化学习中,马尔科夫决策过程(Markov decision process, MDP)是对完全可观测的环境进行描述的,也就是说观测到的状态内容完整地决定了决策的需要的特征。几乎所有的强化学习问题都可以转化为MDP。本讲是理解强化学习问题的理论基础。马尔科夫过程 Markov Process 马尔科夫性 Markov Property某一状态信息包含了所有相关的历史,只要当前状态可...原创 2019-01-23 10:34:56 · 763 阅读 · 0 评论 -
《强化学习》第一讲:简介
本《强化学习》是对David Sliver老师视频内容的一个整理,转自:https://zhuanlan.zhihu.com/p/28084904,并在其基础上加了一部分内容的整理和代码实现。本讲是对于强化学习整体的一个简单介绍,描述了强化学习是什么,解决什么问题,大概用什么样的方式来解决问题。介绍了强化学习中常用的概念。这些概念非常重要,贯穿于整个强化学习始终,但是在这一讲,读者仅需对这些概...原创 2019-01-23 10:33:29 · 420 阅读 · 1 评论 -
深度强化学习
一、简介1、深度强化学习出现的原因传统的强化学习中当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值。然而比较复杂的、更加接近实际情况的任务则往往有着很大的状态空间和连续的动作空间,这种情况下使用Q-Table不现实。同时实现端到端的控制也是要求能处理高维的,如图像、声音等的数据输入。而前些年开始兴起的深度学习,刚好可以应对高维的输入,如果能将两者结合,那么将使...原创 2018-10-08 16:22:45 · 8962 阅读 · 3 评论 -
Q-learning算法实现1(matlab)
算法伪代码:得到Q表后,根据如下算法选择最优策略:以机器人走房间为例,代码实现如下:原文链接如下:https://www.jianshu.com/p/29db50000e3f注:原文中的房间状态0-5分别对应代码中1-6%机器人走房间Q-learning的实现%% 基本参数episode=100; %探索的迭代次数alpha=1;%更新步长gamma=0.8;...原创 2018-10-06 17:20:49 · 21039 阅读 · 5 评论 -
强化学习基本知识
一、定义1、定义强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。注:强化学习是机器学习的一个重要分支,是多学科多领域交叉的一个产物,它的本质是解决 decision making 问题,即自动进行决策,并且可以做连续决策。2、与监督学习,无监督学习的区别(1)与监督学习的区别监督学习可以描述为你在学...原创 2018-10-05 17:56:02 · 1724 阅读 · 0 评论 -
分布式强化学习的分类
根据智能体工作方式的不同,可以将分布式强化学习分为:集中式强化学习、独立强化学习、群体强化学习和社会强化学习。具体介绍如下:1、集中式强化学习集中式强化学习通常把整个多agent 系统的协作机制看成学习的目标, 承担学习任务的是一个全局性的中央学习单元, 这个学习单元以整个多agent 系统的整体状态为输人,以对各个agent 的动作指派为输出, 采用标准的强化学习方法进行学习, 逐渐形成...原创 2018-09-17 17:25:26 · 6545 阅读 · 0 评论