12、深度Q网络（DQN）及其改进方法解析

脑补型产品

于 2025-10-17 10:11:46 发布

阅读量11

点赞数

CC 4.0 BY-SA版权

分类专栏：深度强化学习入门指南文章标签： DQN 深度Q网络目标网络

本文链接：https://blog.youkuaiyun.com/mongodb5scout/article/details/154598540

深度强化学习入门指南专栏收录该内容

35 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度Q网络（DQN）及其改进方法解析

1. DQN基础介绍

DQN（Deep Q-Networks）算法与SARSA有诸多相似之处，但存在一个关键差异。DQN使用下一状态的最大Q值来计算Q目标值，这使得它能够学习到最优Q函数，而非对应当前策略的Q函数，因此DQN属于离策略算法，其学习的Q函数与经验收集策略无关。

1.1 经验回放代码示例

以下是经验回放（Replay）的采样代码：

# slm_lab/agent/memory/replay.py
class Replay(Memory):
    ...
    @lab_api
    def sample(self):
        self.batch_idxs = self.sample_idxs(self.batch_size)
        batch = {}
        for k in self.data_keys:
            if k == 'next_states':
                batch[k] = sample_next_states(self.head, self.max_size,
                                              self.ns_idx_offset, self.batch_idxs, self.states,
                                              self.ns_buffer)
            else:
                batch[k]