【从RL到DRL】深度强化学习基础(三)——蒙特卡洛算法、TD算法改进:经验回放与高估问题的优化——Target网络与Double DQN,DQN结构改进——Dueling网络

本文详细介绍了蒙特卡洛算法,包括如何通过随机采点近似π,定积分中的应用,以及在经验回放、DQN和解决高估问题(如TargetNetwork、DoubleDQN和DuelingNetwork)中的关键概念。还探讨了强化学习中的优势函数和网络结构优化。

蒙特卡洛算法(Monte Carlo Algorithms)

例子:近似计算π

如果有两个随机数生成器,可以生成[0,1]之间的数字,组成点的坐标(x,y),则所有点构成的区域如下图:
在这里插入图片描述
而如果在这个区域中随机取点,点落在下图所示的圆形区域中的概率就可以表示为:
在这里插入图片描述
即P = A1/A2 = π r2/4 = π/4.
则如果选取了n个点,则落在圆形区域内的期望为:Pn = πn / 4 ,如果样本数量趋近于无穷,根据大数原则,可以使用频率来近似等于概率,就可以计算出π值。

例子二:蒙特卡洛方法在定积分中的应用:

如果给定一个函数f(x),计算积分: 在这里插入图片描述
从区间[a,b]中随机采样n个数据点,记为x1~xn,计算:在这里插入图片描述
则Qn就可以用来近似积分值I,且当n→∞时,有Qn→I

应用:蒙特卡洛近似期望(Expectation)

记X为一随机向量,记p(x)为对应的概率密度函数(PDF),记f(x)为任意的函数,输入变量为一向量。则定义函数f(X)的期望:在这里插入图片描述
直接求算这个期望往往不容易,尤其是当x为高维向量时,因此常采用蒙特卡洛算法来近似。过程如下:

  • 基于概率密度函数随机抽取n个样本记为x1~xn。
  • 计算函数f(x)在抽取的样本上的平均值:在这里插入图片描述
  • 将Qn作为函数f(X)的期望的预测值

Experience Replay 经验回放

DQN与TD算法回顾

DQN:通过神经网络训练动作价值函数Q(s,a;w)来近似最优动作价值函数Q*(s,a)在这里插入图片描述
通常使用TD算法来训练DQN

  • 观测状态st并执行动作at
  • 环境会提供一个新的状态st+1</
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值