- 概率分布:理解数据的分布特征(如正态分布、伯努利分布、均匀分布等)。
- 期望和方差:描述随机变量的中心位置和离散程度。
- 贝叶斯定理:用于推断和分类中的后验概率计算。
- 假设检验:评估模型的性能和数据显著性。
概率分布
概率分布是描述随机变量可能取值及其对应概率的一种方式。在统计学和概率论中,概率分布广泛用于描述现象的随机性和不确定性。根据随机变量的类型,概率分布分为离散概率分布和连续概率分布。
1. 离散概率分布
离散概率分布适用于离散随机变量(取值为离散数值的随机变量),常见的离散概率分布有:
-
二项分布:
描述了在 n 次独立试验中某事件 A 成功出现 k 次的概率,假设事件 A 成功的概率是 p,不成功的概率是 1 - p,适用于“是/否”或“成功/失败”类型的事件。
推导步骤:
定义条件:每次试验是独立的,且事件成功的概率 p 不变。
组合数:在 n 次试验中恰好有 k 次成功,可能的排列有 种,即
。
概率计算:每个特定排列中的成功和失败概率相乘得到 。
最终公式:将组合数和成功排列概率相乘,得到二项分布的概率质量函数(PMF):
Python 示例:
展示了在 n = 20 次试验中,成功出现 k 次的概率,当成功概率 p = 0.5。
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import binom
# 设置 x 值范围
x_binom = np.arange(0, 21)
# 二项分布:n=20, p=0.5
y_binom = binom.pmf(x_binom, n=20, p=0.5)
# 绘制二项分布
plt.figure(figsize=(7, 5))
plt.stem(x_binom, y_binom, linefmt='#FFA700', basefmt=' ')
plt.title("Binomial Distribution (n=20, p=0.5)")
plt.xlabel("k")
plt.ylabel("P(X=k)")
plt.show()
-
泊松分布:
用于描述单位时间或空间内某事件发生的次数,特别是罕见事件的发生频率。假设事件的发生是稀疏的、独立的,并且单位时间内的事件平均发生次数为 。
推导步骤:
从二项分布入手:泊松分布可以看作二项分布的极限情况,令 且
,但
保持不变。
概率计算:应用极限计算
简化:用 代入并化简,得到
Python 示例:
描述了单位时间内事件发生 k 次的概率,这里 λ=5。
import numpy as np
import matplotlib.pyplot as p