19、优化方法与分布DQN：从进化算法到深度强化学习的突破

落叶知秋263

于 2025-08-18 11:58:00 发布

阅读量23

点赞数

CC 4.0 BY-SA版权

分类专栏：深度强化学习实战指南文章标签：进化算法分布DQN 深度强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/ansible6ops/article/details/151169582

深度强化学习实战指南专栏收录该内容

36 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

优化方法与分布DQN：从进化算法到深度强化学习的突破

1. 进化算法：强大的优化工具

进化算法为我们提供了更强大的优化工具，它基于生物进化的原理，主要步骤如下：
- 产生个体
- 从当前一代中选择最优个体
- 打乱基因
- 进行变异以引入一些变化
- 进行交配以创建下一代种群

与基于梯度的方法相比，进化算法往往需要更多的数据，数据效率较低。不过，在某些情况下，比如有模拟器时，这可能不是问题。此外，进化算法可以对不可微甚至离散的函数进行优化，而基于梯度的方法则无法做到这一点。

进化策略（ES）是进化算法的一个子类，它不涉及类似生物的交配和重组，而是使用带噪声的复制和加权和从种群中创建新个体。

下面是当前基于梯度的方法的性能表现：在开始时，由于网络尚未饱和，似乎呈现出线性趋势。但最终，随着资源的增加，性能提升会越来越小。

2. 分布DQN：获取完整信息

2.1 传统Q学习的局限

我们之前学过的Q学习可以确定在给定状态下采取每个可能行动的预期（平均、时间折扣）状态 - 行动值。然而，大多数我们希望应用强化学习的环境都存在一定的随机性或不可预测性，给定状态 - 行动对的奖励存在方差。在普通的Q学习（我们可以称之为期望值Q学习）中，我们只学习观察到的有噪声奖励集的平均值。但通过取平均值，我们丢弃了关于环境动态的有价值信息。

为了说明这一点，我们来看一个现实世界的医学例子。假设我们是一家医疗公司，想要构建一个算法来预测高血压患者对一种名为X药物的4周疗程的反应。我们通过随机临床试验收集临床数据，将高血压患者随机分为治疗组（接受真正的药物

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。