累积分布函数(CDF)和概率密度函数(PDF)
在概率论中,我们通常使用累积分布函数(cumulative distribution function, CDF) 和 概率密度函数(probability density function, PDF) 来描述连续随机变量的行为。
1. 累积分布函数(CDF)
对于一个实值随机变量
X
X
X,其累积分布函数(CDF)定义为:
F
(
x
)
=
P
(
X
≤
x
)
F(x) = P(X \leq x)
F(x)=P(X≤x)
这个函数描述了随机变量
X
X
X 取值小于等于
x
x
x 的概率。
性质:
- F ( x ) F(x) F(x) 是一个 单调递增 的函数。
-
F
(
x
)
F(x)
F(x) 的取值范围为
[
0
,
1
]
[0,1]
[0,1],即:
lim x → − ∞ F ( x ) = 0 , lim x → ∞ F ( x ) = 1 \lim_{x \to -\infty} F(x) = 0, \quad \lim_{x \to \infty} F(x) = 1 x→−∞limF(x)=0,x→∞limF(x)=1 - 若
X
X
X 是离散型随机变量,则 CDF 是阶梯函数;
若 X X X 是连续型随机变量,则 CDF 是连续函数。
2. 概率密度函数(PDF)
如果
X
X
X 是一个连续型随机变量,其概率密度函数(PDF)
p
(
x
)
p(x)
p(x) 是 CDF
F
(
x
)
F(x)
F(x) 的导数:
p
(
x
)
=
d
d
x
F
(
x
)
=
F
′
(
x
)
p(x) = \frac{d}{dx} F(x) = F'(x)
p(x)=dxdF(x)=F′(x)
换句话说,PDF 描述的是 CDF 变化的速率。
由 PDF 可以得到 CDF:
F
(
x
)
=
∫
−
∞
x
p
(
x
)
d
x
F(x) = \int_{-\infty}^{x} p(x) dx
F(x)=∫−∞xp(x)dx
重要性质:
- p ( x ) p(x) p(x) 本身并不是直接的概率值, p ( x ) p(x) p(x) 表示在 x x x 附近取值的相对可能性。
- 求概率时需要积分:
P ( a < X ≤ b ) = P ( X ≤ b ) − P ( X ≤ a ) = F ( b ) − F ( a ) = ∫ a b p ( x ) d x P(a < X \leq b) = P(X \leq b) - P(X \leq a) = F(b) - F(a) = \int_{a}^{b} p(x) dx P(a<X≤b)=P(X≤b)−P(X≤a)=F(b)−F(a)=∫abp(x)dx - PDF 的积分必须为 1(概率总和为 1):
∫ − ∞ ∞ p ( x ) d x = 1 \int_{-\infty}^{\infty} p(x) dx = 1 ∫−∞∞p(x)dx=1
正态分布(Gaussian Distribution)
正态分布(Normal Distribution),又称为高斯分布(Gaussian Distribution),是最常见的连续概率分布之一。
一个服从正态分布的随机变量
X
X
X 具有如下概率密度函数(PDF):
p
(
x
∣
μ
,
σ
2
)
=
1
2
π
σ
2
exp
(
−
(
x
−
μ
)
2
2
σ
2
)
p(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x - \mu)^2}{2\sigma^2} \right)
p(x∣μ,σ2)=2πσ21exp(−2σ2(x−μ)2)
参数说明:
- μ \mu μ(均值,mean):控制分布的中心(决定峰值位置)。
- σ 2 \sigma^2 σ2(方差,variance):控制分布的宽度(标准差 σ \sigma σ 越大,分布越分散)。
性质:
- 钟形曲线(Bell Curve):
- 其形状是对称的,并且在 x = μ x = \mu x=μ 处达到最高点。
- 68-95-99.7 规则(Empirical Rule):
- 约 68 % 68\% 68% 的数据落在 ( μ − σ , μ + σ ) (\mu - \sigma, \mu + \sigma) (μ−σ,μ+σ) 之间。
- 约 95 % 95\% 95% 的数据落在 ( μ − 2 σ , μ + 2 σ ) (\mu - 2\sigma, \mu + 2\sigma) (μ−2σ,μ+2σ) 之间。
- 约 99.7 % 99.7\% 99.7% 的数据落在 ( μ − 3 σ , μ + 3 σ ) (\mu - 3\sigma, \mu + 3\sigma) (μ−3σ,μ+3σ) 之间。
1. 期望(Expectation)
正态分布的期望值(均值)就是
μ
\mu
μ:
E
[
X
]
=
μ
E[X] = \mu
E[X]=μ
2. 方差(Variance)
正态分布的方差等于
σ
2
\sigma^2
σ2:
V
a
r
(
X
)
=
E
[
(
X
−
μ
)
2
]
=
σ
2
Var(X) = E[(X - \mu)^2] = \sigma^2
Var(X)=E[(X−μ)2]=σ2
参数估计(Parameter Estimation)
1. 极大似然估计(Maximum Likelihood Estimation, MLE)
目标:假设我们有 N N N 个独立样本 x 1 , x 2 , . . . , x N x_1, x_2, ..., x_N x1,x2,...,xN,我们希望估计正态分布的参数 μ \mu μ 和 σ 2 \sigma^2 σ2。
似然函数(Likelihood Function):
给定数据点
x
1
,
.
.
.
,
x
N
x_1, ..., x_N
x1,...,xN,我们假设它们来自于一个正态分布:
p
(
x
n
∣
μ
,
σ
2
)
=
1
2
π
σ
2
exp
(
−
(
x
n
−
μ
)
2
2
σ
2
)
p(x_n | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x_n - \mu)^2}{2\sigma^2} \right)
p(xn∣μ,σ2)=2πσ21exp(−2σ2(xn−μ)2)
所有样本的联合概率(似然函数)为:
L
(
μ
,
σ
2
)
=
∏
n
=
1
N
p
(
x
n
∣
μ
,
σ
2
)
L(\mu, \sigma^2) = \prod_{n=1}^{N} p(x_n | \mu, \sigma^2)
L(μ,σ2)=n=1∏Np(xn∣μ,σ2)
取对数得到对数似然函数(Log-Likelihood Function):
L
=
ln
p
(
x
1
,
…
,
x
N
∣
μ
,
σ
2
)
L = \ln p({x_1, \dots, x_N} | \mu, \sigma^2)
L=lnp(x1,…,xN∣μ,σ2)
=
∑
n
=
1
N
ln
(
1
2
π
σ
2
exp
(
−
(
x
n
−
μ
)
2
2
σ
2
)
)
= \sum_{n=1}^{N} \ln \left( \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x_n - \mu)^2}{2\sigma^2} \right) \right)
=n=1∑Nln(2πσ21exp(−2σ2(xn−μ)2))
=
−
N
2
ln
(
2
π
σ
2
)
−
1
2
σ
2
∑
n
=
1
N
(
x
n
−
μ
)
2
= -\frac{N}{2} \ln (2\pi \sigma^2) - \frac{1}{2\sigma^2} \sum_{n=1}^{N} (x_n - \mu)^2
=−2Nln(2πσ2)−2σ21n=1∑N(xn−μ)2
2. 最大化对数似然求解 μ \mu μ
对
L
L
L 关于
μ
\mu
μ 求导:
d
L
d
μ
=
−
1
2
σ
2
⋅
2
∑
n
=
1
N
(
x
n
−
μ
)
=
−
1
σ
2
∑
n
=
1
N
(
x
n
−
μ
)
\frac{dL}{d\mu} = -\frac{1}{2\sigma^2} \cdot 2 \sum_{n=1}^{N} (x_n - \mu) = -\frac{1}{\sigma^2} \sum_{n=1}^{N} (x_n - \mu)
dμdL=−2σ21⋅2n=1∑N(xn−μ)=−σ21n=1∑N(xn−μ)
令其等于 0:
∑
n
=
1
N
(
x
n
−
μ
)
=
0
\sum_{n=1}^{N} (x_n - \mu) = 0
n=1∑N(xn−μ)=0
解得:
μ
^
=
1
N
∑
n
=
1
N
x
n
\hat{\mu} = \frac{1}{N} \sum_{n=1}^{N} x_n
μ^=N1n=1∑Nxn
这就是样本均值(sample mean),即极大似然估计的均值。
3. 最大化对数似然求解 σ 2 \sigma^2 σ2
对
L
L
L 关于
σ
2
\sigma^2
σ2 求导:
d
L
d
σ
2
=
−
N
2
σ
2
+
1
2
σ
4
∑
n
=
1
N
(
x
n
−
μ
)
2
\frac{dL}{d\sigma^2} = -\frac{N}{2\sigma^2} + \frac{1}{2\sigma^4} \sum_{n=1}^{N} (x_n - \mu)^2
dσ2dL=−2σ2N+2σ41n=1∑N(xn−μ)2
令其等于 0:
σ
2
=
1
N
∑
n
=
1
N
(
x
n
−
μ
)
2
\sigma^2 = \frac{1}{N} \sum_{n=1}^{N} (x_n - \mu)^2
σ2=N1n=1∑N(xn−μ)2
这就是样本方差(sample variance)。
4. 估计公式
最终,我们得到:
- 均值估计:
μ ^ = 1 N ∑ n = 1 N x n \hat{\mu} = \frac{1}{N} \sum_{n=1}^{N} x_n μ^=N1n=1∑Nxn - 方差估计:
σ ^ 2 = 1 N ∑ n = 1 N ( x n − μ ^ ) 2 \hat{\sigma}^2 = \frac{1}{N} \sum_{n=1}^{N} (x_n - \hat{\mu})^2 σ^2=N1n=1∑N(xn−μ^)2
总结
- CDF 是累积分布函数,描述随机变量取值的累积概率。
- PDF 是概率密度函数,描述每个值的相对可能性。
- 正态分布 由 均值 μ \mu μ 和 方差 σ 2 \sigma^2 σ2 控制。
- 极大似然估计(MLE) 用于估计 μ \mu μ 和 σ 2 \sigma^2 σ2,结果等于样本均值和样本方差。