深度强化学习详解与实例(一)

本文深入浅出地介绍了强化学习中概率论的基础知识,包括概率质量函数(PMF)和概率密度函数(PDF)。接着讲解了蒙特卡洛方法,通过近似 π 值的示例解释了如何利用随机样本估算真实值。通过Python模拟展示了如何抽样并计算π的近似值,随着抽样次数增加,近似值愈发精确。

1. 概率论与蒙特卡洛

1.1 概率论基础

在强化学习中会反复用到概率质量函数(Probability Mass Function,PMF)或者概率密度函数(Probability Density Function,PDF)。

  • PMF用来描述离散概率分布,例如抛硬币的概率质量函数如下:

∑x∈Xp(x)=1 \sum_{x \in \mathcal{X}} p(x)=1 xXp(x)=1

  • PDF用来描述连续概率分布,例如正态分布就是一种常见的连续概率分布,随机变量XXX的取值范围是所有实数RRR,则正态分布的概率密度函数就是:

p(x)=12πσ⋅exp⁡(−(x−μ)22σ2) p(x)=\frac{1}{\sqrt{2 \pi} \sigma} \cdot \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right) p(x)=2π σ1exp(2σ2(xμ)2)

μ\muμσ\sigmaσ分别代表均值和标准差。说明在均值附近的取值的可能性大。

X\mathcal{X}X为变量XXX的取值范围。那概率密度函数就有以下性质:
∫Xp(x)dx=1 \int_{\mathcal{X}}^{} p(x)dx = 1 X

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值