背景
在学习强化学习时候上手一般会是使用gym来入手,但其中的reward和action具体是如何的确不是很方便直接查看到,对于我们使用强化学习中,重新分配reward而言就造成了麻烦,因此最好的办法是使用键盘让我么你自己来玩玩游戏看看其中的reward是怎样的
相关的库
pip3 install keyboard,
代码
以打砖块为例子,action_space为4,也就是有4个按键
import gym
import keyboard
import numpy as np
import time
total_reward = 0
env = gym.make('Breakout-v0')
state = env.reset()
action = 0
def preprocess(img):
img_temp = img.mean(axis = 2)
x = -1
y = -1
if len(np.where((img_temp[100:189,8:152])!= 0)[0

最低0.47元/天 解锁文章
16万+

被折叠的 条评论
为什么被折叠?



