【从RL到DRL】深度强化学习基础（三）——蒙特卡洛算法、TD算法改进：经验回放与高估问题的优化——Target网络与Double DQN，DQN结构改进——Dueling网络

最新推荐文章于 2025-08-20 01:16:12 发布

原创

最新推荐文章于 2025-08-20 01:16:12 发布 · 1.5k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #网络 #人工智能

本文详细介绍了蒙特卡洛算法，包括如何通过随机采点近似π，定积分中的应用，以及在经验回放、DQN和解决高估问题（如TargetNetwork、DoubleDQN和DuelingNetwork）中的关键概念。还探讨了强化学习中的优势函数和网络结构优化。

目录

蒙特卡洛算法（Monte Carlo Algorithms）
Experience Replay 经验回放
高估问题
Dueling Network
- 优势函数
- Dueling Network结构搭建：

蒙特卡洛算法（Monte Carlo Algorithms）

例子：近似计算π

如果有两个随机数生成器，可以生成[0,1]之间的数字，组成点的坐标(x,y)，则所有点构成的区域如下图：
在这里插入图片描述
而如果在这个区域中随机取点，点落在下图所示的圆形区域中的概率就可以表示为：

即P = A₁/A₂ = π r²/4 = π/4.
则如果选取了n个点，则落在圆形区域内的期望为：Pn = πn / 4 ,如果样本数量趋近于无穷，根据大数原则，可以使用频率来近似等于概率，就可以计算出π值。

例子二：蒙特卡洛方法在定积分中的应用：

如果给定一个函数f(x)，计算积分：在这里插入图片描述
从区间[a,b]中随机采样n个数据点，记为x1~xn，计算：
则Qn就可以用来近似积分值I，且当n→∞时，有Qn→I

应用：蒙特卡洛近似期望（Expectation）

记X为一随机向量，记p(x)为对应的概率密度函数（PDF），记f(x)为任意的函数，输入变量为一向量。则定义函数f(X)的期望：在这里插入图片描述
直接求算这个期望往往不容易，尤其是当x为高维向量时，因此常采用蒙特卡洛算法来近似。过程如下：

基于概率密度函数随机抽取n个样本记为x1~xn。
计算函数f(x)在抽取的样本上的平均值：
将Qn作为函数f(X)的期望的预测值

Experience Replay 经验回放

DQN与TD算法回顾

DQN：通过神经网络训练动作价值函数Q(s,a;w)来近似最优动作价值函数Q*(s,a) 在这里插入图片描述
通常使用TD算法来训练DQN：

观测状态s_t并执行动作a_t
环境会提供一个新的状态s_t+1</

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。