19、优化方法与分布DQN:从进化算法到深度强化学习的突破

优化方法与分布DQN:从进化算法到深度强化学习的突破

1. 进化算法:强大的优化工具

进化算法为我们提供了更强大的优化工具,它基于生物进化的原理,主要步骤如下:
- 产生个体
- 从当前一代中选择最优个体
- 打乱基因
- 进行变异以引入一些变化
- 进行交配以创建下一代种群

与基于梯度的方法相比,进化算法往往需要更多的数据,数据效率较低。不过,在某些情况下,比如有模拟器时,这可能不是问题。此外,进化算法可以对不可微甚至离散的函数进行优化,而基于梯度的方法则无法做到这一点。

进化策略(ES)是进化算法的一个子类,它不涉及类似生物的交配和重组,而是使用带噪声的复制和加权和从种群中创建新个体。

下面是当前基于梯度的方法的性能表现:在开始时,由于网络尚未饱和,似乎呈现出线性趋势。但最终,随着资源的增加,性能提升会越来越小。

2. 分布DQN:获取完整信息

2.1 传统Q学习的局限

我们之前学过的Q学习可以确定在给定状态下采取每个可能行动的预期(平均、时间折扣)状态 - 行动值。然而,大多数我们希望应用强化学习的环境都存在一定的随机性或不可预测性,给定状态 - 行动对的奖励存在方差。在普通的Q学习(我们可以称之为期望值Q学习)中,我们只学习观察到的有噪声奖励集的平均值。但通过取平均值,我们丢弃了关于环境动态的有价值信息。

为了说明这一点,我们来看一个现实世界的医学例子。假设我们是一家医疗公司,想要构建一个算法来预测高血压患者对一种名为X药物的4周疗程的反应。我们通过随机临床试验收集临床数据,将高血压患者随机分为治疗组(接受真正的药物

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值