目录
蒙特卡洛算法(Monte Carlo Algorithms)
例子:近似计算π
如果有两个随机数生成器,可以生成[0,1]之间的数字,组成点的坐标(x,y),则所有点构成的区域如下图:

而如果在这个区域中随机取点,点落在下图所示的圆形区域中的概率就可以表示为:

即P = A1/A2 = π r2/4 = π/4.
则如果选取了n个点,则落在圆形区域内的期望为:Pn = πn / 4 ,如果样本数量趋近于无穷,根据大数原则,可以使用频率来近似等于概率,就可以计算出π值。
例子二:蒙特卡洛方法在定积分中的应用:
如果给定一个函数f(x),计算积分: 
从区间[a,b]中随机采样n个数据点,记为x1~xn,计算:
则Qn就可以用来近似积分值I,且当n→∞时,有Qn→I
应用:蒙特卡洛近似期望(Expectation)
记X为一随机向量,记p(x)为对应的概率密度函数(PDF),记f(x)为任意的函数,输入变量为一向量。则定义函数f(X)的期望:
直接求算这个期望往往不容易,尤其是当x为高维向量时,因此常采用蒙特卡洛算法来近似。过程如下:
- 基于概率密度函数随机抽取n个样本记为x1~xn。
- 计算函数f(x)在抽取的样本上的平均值:

- 将Qn作为函数f(X)的期望的预测值
Experience Replay 经验回放
DQN与TD算法回顾
DQN:通过神经网络训练动作价值函数Q(s,a;w)来近似最优动作价值函数Q*(s,a)
通常使用TD算法来训练DQN:
- 观测状态st并执行动作at
- 环境会提供一个新的状态st+1</

本文详细介绍了蒙特卡洛算法,包括如何通过随机采点近似π,定积分中的应用,以及在经验回放、DQN和解决高估问题(如TargetNetwork、DoubleDQN和DuelingNetwork)中的关键概念。还探讨了强化学习中的优势函数和网络结构优化。
最低0.47元/天 解锁文章
4912

被折叠的 条评论
为什么被折叠?



