深入浅出强化学习原理入门笔记2-3节

最新推荐文章于 2023-12-22 10:50:25 发布

勤劳的约德尔人

最新推荐文章于 2023-12-22 10:50:25 发布

阅读量478

点赞数 2

CC 4.0 BY-SA版权

分类专栏：强化学习笔记文章标签：强化学习

本文链接：https://blog.youkuaiyun.com/qq_42626762/article/details/88064680

强化学习笔记专栏收录该内容

1 篇文章

订阅专栏

本文解决在使用gym库实现马尔科夫决策过程(MDP)实例时遇到的错误，包括Python版本不一致导致的问题及解决方案。通过调整函数定义形式和导入gym模块，确保程序顺利运行。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第2章马尔科夫决策过程

2.3基于gym的MDP实例讲解

在运行本节实例的程序是，出现了一些错误，原因可能是作者使用的Python版本与自己使用的不一致，所以返回了一些错题，经过测试，可以做出以下修改:(两个函数定义形式）
在grid_mdp.py文件中，函数定义的原形式如下

def _step(self,action):
     ---snip---

 def _reset(self):
		---snip---

需要将step和reset前的横线 _ 去掉，之后可以正常运行

如果返回缺少 gym 模块，可以先执行 import gym，再执行之后的程序即可。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

勤劳的约德尔人

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

深入浅出强化学习：原理入门_强化学习：表面解释

weixin_26752075的博客

08-23

545

深入浅出强化学习：原理入门Artificial Intelligence (AI) has become a huge buzz word in the past 5 years or more, and more and more people are being clued up about Artificial Neural Networks that can be trained in t...

《深入浅出强化学习：原理入门》学习笔记（1）

菜鸟08哥的微博（记录个人学习点滴，与君共勉）

03-04

1212

《深入浅出强化学习：原理入门》学习笔记，仿真环境搭建

参与评论您还未登录，请先登录后发表或查看评论

深入浅出强化学习原理入门.rar

07-04

用通俗易懂的语言深入浅出地介绍了强化学习的基本原理，覆盖了传统的强化学习基本方法和当前炙手可热的深度强化学习方法。从最基本的马尔科夫决策过程入手，将强化学习问题纳入到严谨的数学框架中，接着阐述了解决此类问题最基本的方法——动态规划方法，并从中总结出解决强化学习问题的基本思路：交互迭代策略评估和策略改善

深入浅出强化学习：原理入门（待更新）

gy77

04-16

2193

之前看强化学习的一些教学视频，发现自己对一些强化学习中符号的定义理解不太透彻，例如 \(Q_{target}\),\(Q值\), \(Q估计\)，\(Q现实\)，\(Q预测\)，现在发现郭宪老师的书，试读了一下里边的内容，发现老师讲解的很透彻，并且原理解释的很清楚，因此做此笔记。一是为了监督自己的学习进度，让自己能够在阅读的过程中，能够更深入的理解。二是做一份自己的笔记，方便后期查阅。文章内...

《深入浅出强化学习原理入门》笔记

一朵花开的时间

10-28

1933

书中代码: https://github.com/gxnk/reinforcement-learning-code 作者博客: https://zhuanlan.zhihu.com/sharerl https://github.com/openai/gym 深度学习，统计，信息学，运筹学，概率论，优化。 ...

《深入浅出强化学习原理入门》学习笔记（一）总结与绪论

lxs3213196的博客

11-20

1296

《深入浅出强化学习原理入门》学习笔记（一）总结与绪论1、《深入浅出强化学习》总结2、强化学习3、序贯决策问题4、马尔科夫决策过程5、动态规划算法6、强化学习算法演进的两个关键时间节点7、强化学习算法分类8、强化学习基本框架9、强化学习仿真环境gym（1）选用gym平台的原因（2）gym环境的安装（3）深入剖析gym环境的构建 1、《深入浅出强化学习》总结《深入浅出强化学习》包含绪论和四个篇章，全书分为两条线索：第一条线索是强化学习的基本算法。绪论讲解了强化学习的是什么，可以解决什么问题，怎样解决问题，

《深入浅出强化学习原理入门》学习笔记（三）机器人找金币应用实例

lxs3213196的博客

11-24

3051

《深入浅出强化学习原理入门》学习笔记（三）MDP应用实例

《深入浅出强化学习原理入门》学习笔记（七）DQN

lxs3213196的博客

12-10

692

《深入浅出强化学习原理入门》学习笔记（七）DQN及其变种1、Qleaning框架2、值函数逼近增量式学习：随机梯度下降法增量式学习：半梯度算法线性逼近批学习方法非线性化逼近：神经网络前向网络前向网络的反向求导3、卷积神经网络卷积运算池化典型卷积神经网络LeNet卷积神经网络的反向传播4、DQN：利用经验回放训练学习过程5、DQN:设置目标网络处理时间差分算法中的TD偏差6、DQN伪代码 DQN采用的是Qleaning的基本框架，对Qlearning的修改主要体现在以下三个方面。（1）DQN利用深度卷积神经

《深入浅出强化学习原理入门》学习笔记（二）马尔科夫决策过程

lxs3213196的博客

11-23

495

《深入浅出强化学习原理入门》学习笔记（二）马尔科夫决策过程1、MDP过程（1）马尔科夫性（2）马尔科夫过程（3）马尔科夫决策过程2、MDP过程中的概率学知识3、MDP过程应用实例 1、MDP过程 强化学习的过程是动态的、不断交互的过程，所需要的的数据也是通过和环境不断交互产生的，很像人的学习过程，解决的是决策的问题。深度学习如图像识别和语音识别解决的是感知的问题。人工智能的最终目的是通过感知进行智能决策。所以近年来发展起来的深度学习技术和强化学习算法结合产生的深度强化学习算法是人类实现人工智能终极目的

《深入浅出强化学习：原理入门》学习笔记

weixin_45251621的博客

10-01

1170

1.绪论 1.1 这是一本什么书语言风格偏口语化数学基础穿插在讲解具体的强化学习算法当中每部分都包含理论讲解、代码讲解以及直观解释三项内容内容丰富，涵盖强化学习算法的各个方面，从最基础的算法到最前沿的算法都有所涉猎 1.2 强化学习可以解决什么问题用一句话来概括强化学习能解决的问题就是：智能决策问题。更确切地说是序贯决策问题。序贯决策问题：需要连续不断地做出决策，才能实现最终目标的问题 1.3 强化学习如何解决问题监督学习解决的...

强化学习入门（Introduction to Deep Reinforcement Learning by Shenglin Zhao）

04-12

强化学习入门（Introduction to Deep Reinforcement Learning by Shenglin Zhao，香港中文大学）.

深入浅出强化学习原理入门（一）——马尔科夫决策过程

Joselynzhao

03-09

1500

马尔科夫决策过程文章目录马尔科夫决策过程理论讲解马尔科夫性马尔科夫过程马尔科夫决策过程状态值函数question 1: 从一个状态到达另一个状态（直达）是否存在多种动作选择？或者说一个状态下指定一个动作，是否会达到两个不同的状态？ 强化学习基本框架智能体与环境不断交互从而产生很多的数据，强化学习算法利用产生的数据修改自身的动作策略。 强化学习与深度学习的区别：深度学习如图像识别和语音识别...

《深入浅出强化学习：原理入门》学习笔记（2）

菜鸟08哥的微博（记录个人学习点滴，与君共勉）

03-08

861

马尔可夫决策过程；公式解释；基于gym的MDP实例讲解，含源码

《深入浅出强化学习 原理入门》读书笔记（1）

Asber的博客

09-03

2498

目录前言 强化学习的分类仿真环境 强化学习基础 MDP 环境搭建：前言其他人的读书笔记资源 pdf和代码资源这个是作者的知乎专栏作者的知乎豆瓣的褒贬不一，如果有VPN其实可以直接开始看国外的教程，如果英文不好，可以选择看这本书。把中间的不懂的概念补上去的话其实这本书挺不错的。 强化学习知乎教程推荐 强化学习知乎2018论文推荐前六章很大部分参考了...

强化学习算法原理总结---通俗易懂，入门最佳

最新发布

weixin_57726558的博客

12-22

2577

另外，在处理回合结束才奖励的问题时，会出现不一致的问题：回合开始时，同样的状态下，采取同样的动作，但是由于后期采取动作不同，导致奖励值不同，从而导致神经网络参数来回变化，最终导致Loss函数的方差较大。因为DQN是一种off-policy的方法，每次学习时，不是使用下一次交互的真实动作，而是使用当前认为价值最大的动作来更新目标值函数，所以会出现对Q值的过高估计。2、容易收敛，在学习过程中，策略梯度法每次更新策略函数时，参数只发生细微的变化，但参数的变化是朝着正确的方向进行迭代，使得算法有更好的收敛性。

深度强化学习从入门到大师：简单介绍A3C （第五部分） ...

测试0901-1

01-15

412

本文为 AI 研习社编译的技术博客，原标题： An intro to Advantage Actor Critic methods: let’s play Sonic the Hedgehog! 作者 |Thomas Simonini 翻译、校对 | 斯蒂芬•二狗子审核| 邓普斯•杰弗整理 | 菠萝妹原文...

003-sarsa

weixin_30457881的博客

11-14

228

本学习笔记转自https://morvanzhou.github.io/ 什么是 Sarsa 今天我们会来说说强化学习中一个和 Q learning 类似的算法, 叫做 Sarsa. 注: 本文不会涉及数学推导. 大家可以在很多其他地方找到优秀的数学推导文章. 在强化学习中 Sarsa 和Q learning及其类似, 这节内容会基于之前我们所讲的 Q learning. ...

强化学习入门（一）

wisteriamhy的专栏

09-11

946

在强化学习中，环境状态的转移和环境反馈给Agent的奖赏是不受Agent个体控制的，Agent只能通过选择要执行的动作来影响环境，并通过观察转移后的状态和环境反馈的奖赏值来感知环境，Agent的强化学习过程即是通过不断尝试各种动作-状态策略，并通过环境反馈的奖赏不断调整策略，从而达到在某一环境状态中Agent能选择最优的动作进而得到最大奖赏这一结果。最近我主要学习了free model思想的强化学...

【强化学习】入门和资料

Kun Wang's 博客

12-09

1912

去年的alpha go到 alpha go zero 在到Alpha Zero， deeepmaid真的是不断在刷分，追赶不及。核心还是深度学习+强化学习。感觉深度学习的发展已经逐渐进入冷却期。NIPS的文章数量虽然排在第二名，但是除非出现非常创新性的算法，例如Le Cun 老爷子的Capsule Net啥的，当然。。个人观点。深度学习这把火一起烧起来的还有强化学习。毕竟能让机器自己学习，在控制、

深入浅出强化学习原理入门笔记2-3节

第2章 马尔科夫决策过程

2.3基于gym的MDP实例讲解

第2章马尔科夫决策过程