1. 概率论与蒙特卡洛
1.1 概率论基础
在强化学习中会反复用到概率质量函数(Probability Mass Function,PMF)或者概率密度函数(Probability Density Function,PDF)。
- PMF用来描述离散概率分布,例如抛硬币的概率质量函数如下:
∑x∈Xp(x)=1 \sum_{x \in \mathcal{X}} p(x)=1 x∈X∑p(x)=1
- PDF用来描述连续概率分布,例如正态分布就是一种常见的连续概率分布,随机变量XXX的取值范围是所有实数RRR,则正态分布的概率密度函数就是:
p(x)=12πσ⋅exp(−(x−μ)22σ2) p(x)=\frac{1}{\sqrt{2 \pi} \sigma} \cdot \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right) p(x)=2πσ1⋅exp(−2σ2(x−μ)2)
μ\muμ和σ\sigmaσ分别代表均值和标准差。说明在均值附近的取值的可能性大。
设X\mathcal{X}X为变量XXX的取值范围。那概率密度函数就有以下性质:
∫Xp(x)dx=1 \int_{\mathcal{X}}^{} p(x)dx = 1 ∫X

本文深入浅出地介绍了强化学习中概率论的基础知识,包括概率质量函数(PMF)和概率密度函数(PDF)。接着讲解了蒙特卡洛方法,通过近似 π 值的示例解释了如何利用随机样本估算真实值。通过Python模拟展示了如何抽样并计算π的近似值,随着抽样次数增加,近似值愈发精确。
最低0.47元/天 解锁文章
1021

被折叠的 条评论
为什么被折叠?



