累积分布函数（CDF）和概率密度函数（PDF）

最新推荐文章于 2025-04-29 00:23:00 发布

苏西月

最新推荐文章于 2025-04-29 00:23:00 发布

阅读量1.5k

点赞数 5

分类专栏： ASR 文章标签： pdf 概率论

本文链接：https://blog.youkuaiyun.com/qq_51011530/article/details/146112224

版权

ASR 专栏收录该内容

17 篇文章

订阅专栏

累积分布函数（CDF）和概率密度函数（PDF）

在概率论中，我们通常使用累积分布函数（cumulative distribution function, CDF） 和 概率密度函数（probability density function, PDF） 来描述连续随机变量的行为。

1. 累积分布函数（CDF）

对于一个实值随机变量 $X$ ，其累积分布函数（CDF）定义为：
$\leq x)$
这个函数描述了随机变量 $X$ 取值小于等于 $x$ 的概率。

性质：

$F (x)$ 是一个 单调递增 的函数。
$F (x)$ 的取值范围为 $[0, 1]$ ，即：
$\lim_{x \to -\infty} F(x) = 0, \quad \lim_{x \to \infty} F(x) = 1$
若 $X$ 是离散型随机变量，则 CDF 是阶梯函数；
若 $X$ 是连续型随机变量，则 CDF 是连续函数。

2. 概率密度函数（PDF）

如果 $X$ 是一个连续型随机变量，其概率密度函数（PDF） $p (x)$ 是 CDF $F (x)$ 的导数：
$\frac{d}{dx} F(x) = F'(x)$
换句话说，PDF 描述的是 CDF 变化的速率。

由 PDF 可以得到 CDF：
$\int_{-\infty}^{x} p(x) dx$
重要性质：

$p (x)$ 本身并不是直接的概率值， $p (x)$ 表示在 $x$ 附近取值的相对可能性。
求概率时需要积分：
$\leq b) = P(X \leq b) - P(X \leq a) = F(b) - F(a) = \int_{a}^{b} p(x) dx$
PDF 的积分必须为 1（概率总和为 1）：
$\int_{-\infty}^{\infty} p(x) dx = 1$

正态分布（Gaussian Distribution）

正态分布（Normal Distribution），又称为高斯分布（Gaussian Distribution），是最常见的连续概率分布之一。

一个服从正态分布的随机变量 $X$ 具有如下概率密度函数（PDF）：
$\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x - \mu)^2}{2\sigma^2} \right)$
参数说明：

$\mu$ （均值，mean）：控制分布的中心（决定峰值位置）。
$\sigma^2$ （方差，variance）：控制分布的宽度（标准差 $\sigma$ 越大，分布越分散）。

性质：

钟形曲线（Bell Curve）：
- 其形状是对称的，并且在 $\mu$ 处达到最高点。
68-95-99.7 规则（Empirical Rule）：
- 约 $68\%$ 的数据落在 $(\mu - \sigma, \mu + \sigma)$ 之间。
- 约 $95\%$ 的数据落在 $(\mu - 2\sigma, \mu + 2\sigma)$ 之间。
- 约 $99.7\%$ 的数据落在 $(\mu - 3\sigma, \mu + 3\sigma)$ 之间。

1. 期望（Expectation）

正态分布的期望值（均值）就是 $\mu$ ：
$\mu$

2. 方差（Variance）

正态分布的方差等于 $\sigma^2$ ：
$\mu)^2] = \sigma^2$

参数估计（Parameter Estimation）

1. 极大似然估计（Maximum Likelihood Estimation, MLE）

目标：假设我们有 $N$ 个独立样本 $x_1, x_2, ..., x_N$ ，我们希望估计正态分布的参数 $\mu$ 和 $\sigma^2$ 。

似然函数（Likelihood Function）：
给定数据点 $x_1, ..., x_N$ ，我们假设它们来自于一个正态分布：
$p(x_n | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x_n - \mu)^2}{2\sigma^2} \right)$
所有样本的联合概率（似然函数）为：
$L(\mu, \sigma^2) = \prod_{n=1}^{N} p(x_n | \mu, \sigma^2)$

取对数得到对数似然函数（Log-Likelihood Function）：
$\ln p({x_1, \dots, x_N} | \mu, \sigma^2)$
$\sum_{n=1}^{N} \ln \left( \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x_n - \mu)^2}{2\sigma^2} \right) \right)$
$-\frac{N}{2} \ln (2\pi \sigma^2) - \frac{1}{2\sigma^2} \sum_{n=1}^{N} (x_n - \mu)^2$

2. 最大化对数似然求解 $\mu$

对 $L$ 关于 $\mu$ 求导：
$\frac{dL}{d\mu} = -\frac{1}{2\sigma^2} \cdot 2 \sum_{n=1}^{N} (x_n - \mu) = -\frac{1}{\sigma^2} \sum_{n=1}^{N} (x_n - \mu)$
令其等于 0：
$\sum_{n=1}^{N} (x_n - \mu) = 0$

解得：
$\hat{\mu} = \frac{1}{N} \sum_{n=1}^{N} x_n$
这就是样本均值（sample mean），即极大似然估计的均值。

3. 最大化对数似然求解 $\sigma^2$

对 $L$ 关于 $\sigma^2$ 求导：
$\frac{dL}{d\sigma^2} = -\frac{N}{2\sigma^2} + \frac{1}{2\sigma^4} \sum_{n=1}^{N} (x_n - \mu)^2$
令其等于 0：
$\sigma^2 = \frac{1}{N} \sum_{n=1}^{N} (x_n - \mu)^2$
这就是样本方差（sample variance）。