32、深度强化学习:从DQN到前沿进展

深度强化学习:从DQN到前沿进展

1. 深度Q网络(DQN)基础

1.1 架构构建

在深度强化学习中,我们构建两个Q网络:预测网络和目标Q网络。它们具有相同的架构定义,只是目标Q网络的参数更新有延迟。由于我们要从纯像素输入学习玩《Breakout》游戏,游戏状态是一个像素数组。我们将图像依次通过三个卷积层和两个全连接层,为每个潜在动作生成Q值。

1.2 帧堆叠

状态输入的大小为 [None, self.history_length, self.screen_height, self.screen_width] 。为了建模和捕捉像速度这样的时间相关状态变量,DQN使用一组连续图像(即历史),而不仅仅是一张图像。每个连续图像被视为一个单独的通道。我们使用辅助函数 process_state_into_stacked_frames(self, frame, past_frames, past_state=None) 来构建这些堆叠帧。

1.3 训练操作设置

损失函数基于以下目标表达式推导得出:
[
\min_{\theta} \sum_{e \in E} \sum_{t = 0}^{T} \left[ Q(s_t, a_t; \theta) - \left( r_t + \gamma \max_{a’} Q(s_{t + 1}, a’; \theta) \right) \right]^2
]
我们希望预测网络的输出等于目标网络的输出加上当前时间步的回报。在纯PyTorch代码中,我们可以将其表示为预测网络输出与目标网

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值