深入浅出强化学习原理入门笔记2-3节

第2章 马尔科夫决策过程

2.3基于gym的MDP实例讲解

在运行本节实例的程序是,出现了一些错误,原因可能是作者使用的Python版本与自己使用的不一致,所以返回了一些错题,经过测试,可以做出以下修改:(两个函数定义形式)
在grid_mdp.py文件中,函数定义的原形式如下

def _step(self,action):
     ---snip---

 def _reset(self):
		---snip---

需要将step和reset前的横线 _ 去掉,之后可以正常运行

如果返回缺少 gym 模块,可以先执行 import gym,再执行之后的程序即可。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值