在强化学习DQN网络代码实现过程中,针对gym环境中的LunarLander-v2模拟游戏进行学习任务。我的部分代码如下,首先是Agent的状态存储过程:
def __init__(self,gamma,epsilon,lr,input_dims,batch_size,n_actions,
# ....此前省略 ....
self.state_memory = np.zeros((self.mem_size,*input_dims),dtype=np.float32)
self.new_state_memory = np.zeros((self.mem_size,*input_dims),dtype=np.float32)
self.action_memory = np.zeros(self.mem_size,dtype=np.int32)
self.reward_memory = np.zeros(self.mem_s

博客围绕强化学习DQN网络代码实现展开,针对模拟游戏学习任务,代码执行报错,提示数据维度不对应,怀疑是reset()函数返回的observation有问题,经打印观察,将observation指定为所需的array信息后,网络正常工作。
最低0.47元/天 解锁文章
4万+

被折叠的 条评论
为什么被折叠?



