12、深度Q网络（DQN）及其改进方法详解

脸先着地天使

于 2025-09-08 11:32:28 发布

阅读量27

点赞数

CC 4.0 BY-SA版权

分类专栏：深度强化学习实战指南文章标签： DQN 深度Q网络目标网络

本文链接：https://blog.youkuaiyun.com/jwt8token/article/details/152340350

深度强化学习实战指南专栏收录该内容

35 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度Q网络（DQN）及其改进方法详解

1. 深度Q网络（DQN）基础

深度Q网络（DQN）是一种强大的强化学习算法，与SARSA有诸多相似之处，但也存在关键差异。DQN利用下一个状态的最大Q值来计算Q目标值，这使得它能够学习到最优Q函数，而不是对应于当前策略的Q函数，因此属于离策略算法。

1.1 经验回放机制

DQN的一个重要特性是经验回放，它允许智能体重用之前存储在经验回放内存中的经验。以下是经验回放采样的代码示例：

# slm_lab/agent/memory/replay.py

class Replay(Memory):
    ...
    @lab_api
    def sample(self):
        self.batch_idxs = self.sample_idxs(self.batch_size)
        batch = {}
        for k in self.data_keys:
            if k == 'next_states':
                batch[k] = sample_next_states(self.head, self.max_size,
                                              self.ns_idx_offset, self.batch_idxs, self.states,
                                              self.ns_buffer)
            else: