Python-DQN代码阅读-填充回放记忆(replay memory)(5)

原创

已于 2023-04-14 23:07:54 修改 · 1.3k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #深度学习 #强化学习 #深度强化学习 #人工智能

于 2023-04-13 21:28:22 首次发布

该代码实现了一个填充回放记忆的函数，用于强化学习中的DQN算法。它涉及环境初始化、状态处理、epsilon的线性衰减、动作选择、环境交互及经验存储。通过策略函数生成动作概率，根据epsilon选择动作，并将执行结果存储为Transition对象加入回放记忆列表。

1.代码

def populate_replay_mem(sess, env, state_processor, replay_memory_init_size, policy, epsilon_start, epsilon_end, epsilon_decay_steps, VALID_ACTIONS, Transition):
    """
    填充回放记忆（replay memory）的函数

    参数：
        sess: TensorFlow 会话对象
        env: 环境对象
        state_processor: 状态处理器对象
        replay_memory_init_size: 回放记忆的初始大小
        policy: 策略函数，用于生成动作概率分布
        epsilon_start: 初始 epsilon 值
        epsilon_end: 最终 epsilon 值
        epsilon_decay_steps: epsilon 衰减的步数
        VALID_ACTIONS: 有效的动作列表
        Transition: 用于构建回放记忆的过渡对象类

    返回：
        replay_memory: 填充完毕的回放记忆列表
    """
    state = env.reset()  # 初始化环境状态
    state = state_processor.process(sess, state)  # 处理状态

    delta_epsilon = (epsilon_start - epsilon_end) / float(epsilon_decay_steps)  # 计算 epsilon 的衰减步长

    replay_memory = []  # 初始化回放记忆列表

    for i in range(replay_memory_init_size):
        epsilon = max(epsilon_start - float(i) * delta_epsilon, epsilon_end)  # 根据当前步数计算当前的 epsilon 值

        action_probs = policy(sess, state, epsilon)  # 生成动作概率分布
        action = np.random.choice(np.arange(len(action_probs)), p=action_probs)  # 根据动作概率分布选择动作

        env.render()  # 渲染环境

        next_state, reward, done, _ = env.step(VALID_ACTIONS[action])  # 执行选中的动作并观察下一个状态、奖励和终止状态

        next_state = state_processor.process(sess, next_state)  # 处理下一个状态
        next_state = np.append(state[:, :, 1:], np.expand_dims(next_state, 2), axis=2)  # 将下一个状态添加到当前状态中

        replay_memory.append(Transition(state, action, reward, next_state, done))  # 构建过渡对象并添加到回放记忆中

        if done:
            state = env.reset()  # 如果当前状态为终止状态，则重新初始化环境状态
            state = state_processor.process(sess, state)  # 处理状态
            state = np.stack([state] * 4, axis=2)  # 将状态复制四份并形成新的状态
        else:
            state = next_state  # 否则，更新当前状态为下一个状态

    return replay_memory  # 返回填充完毕的回放记忆列表

2.代码阅读

这段代码是用于填充回放记忆（replay memory）的函数，其中包含了以下步骤：

初始化环境状态：通过调用 env.reset() 方法来获取环境的初始状态，并通过 state_processor.process() 方法对状态进行处理。
初始化 epsilon：根据当前步数 i，使用线性插值的方式计算当前的 epsilon 值，以便在探索和利用之间进行平衡。
根据当前状态和 epsilon 值生成动作概率分布：通过调用输入的策略函数 policy，传入当前的会话对象 sess、当前状态 state 和 epsilon 值，获取动作概率分布 action