强化学习之深度Q函数

最新推荐文章于 2025-06-18 02:22:36 发布

原创

最新推荐文章于 2025-06-18 02:22:36 发布 · 1.1w 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文探讨了强化学习中的深度Q网络（DQN）及其改进算法，包括Double DQN解决高估问题，Prioritized Experience Replay提高数据利用效率，以及Dueling DQN提升动作评价能力。DQN在游戏等场景中，通过深度学习和经验回放策略，有效地学习策略以最大化奖励。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景：强化学习玩游戏

模拟器（model 或 emulator）以动作（action）为输入，输出一张图像和奖励。

单张图像无法完全理解agent的当前状态，所以得结合动作与状态序列的信息。

agent的目标是，以一定的方式选择动作，与模拟器进行相交，来最大化将来的奖励。

Bellman equation:

Q * (s, a) = E s' \in ϵ [r + γ m a x Q * (s', a') | s, a]

$Q^*(s,a)=E_{s'\in\epsilon}[r+\gamma maxQ^*(s',a')|s,a]$
强化学习的一般方法是利用Bellman equation作为迭代更新：

Q i + 1 (s, a) = E s' \in ϵ [r + γ m a x a' Q * (s', a') | s, a]

$Q_{i+1}(s,a)=E_{s'\in\epsilon}[r+\gamma max_{a'}Q^*(s',a')|s,a]$

DQN

这里写图片描述

将深度学习应用到强化有几个挑战。

大多深度学习的应用都需要大量的标注数据，而强化学习需要从reward信号学习，且reward信号经常比较稀疏（sparse）、有噪声（noisy）、有延迟（delayed）。从执行动作（action）到产生reward的延迟，可能有上千步长。
数据样本的独立性。深度学习假设数据样本是独立的，而在强化学习中状态（state）之间是高度相关的。
数据分布的不变性。深度学习假设数据分布是不变的，而强化学习可以学习新的行为（policy），进而改变数据的分布。

针对第二和第三点的应对策略：

经验回放机制（experience replay mechanism）：通过多次随机取样之前的状态转移，来平滑训练分布的变化。

Q函数用网络表示时的损失函数

L i (θ i) = E s, a \in ρ (\cdot) [(y i - Q (s, a; θ i)) 2]

$L_i(\theta_i)=E_{s,a\in \rho(\cdot)}[(y_i-Q(s,a;\theta_i))^2]$
其中目标值

y i = E s' \in ϵ [r + γ m a x a' Q (s', a'; θ i - 1) | s, a]

$y_i=E_{s'\in \epsilon}[r+\gamma max_{a'}Q(s',a';\theta_{i-1})|s,a]$
值得注意的是，在深度学习中 目标值在训练开始时是固定不变的，而有强化学习中却与网络的参数有关。

损失函数的导数为：

\nabla θ i L i (θ i) = E s, a \in ρ (\cdot); s' \in ϵ [(r + γ

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。