前面陆续分享了基于policy gradient和DQN实现的深度强化学习任务调度仿真,上次的DQN没有实现fix-qtarget和experience replay,这次再分享实现了这两个方法的DQN任务调度仿真。
经验重放,定义存储和存放次序,这里也可以自行修改
def store_transition(self, s, a, r, s_):
#经验重放
one_hot_action = np.zeros(self.n_actions)
one_hot_action[a] = 1
self.replay_buffer.append((s, one_hot_action, r, s_))
if len(self.replay_buffer) ><