常见概率分布总结

本文总结了常见的概率分布,包括离散分布如伯努利、二项、几何、负二项、超几何和泊松分布,以及连续分布如均匀、指数、伽马和正态分布。详细介绍了每个分布的概率质量函数、累积分布函数及其性质,如期望和方差,并提到了指数族分布的重要角色。

Discrete

Bernoulli distribution

  • pmf
    • f X ( x ) = P ( X = x ) = { ( 1 − p ) 1 − x p x for x = 0 or 1 0 otherwise f_X(x) = P(X= x) =\left\{\begin{aligned}(1-p)^{1-x}p^x & \quad \text{for x = 0 or 1}\\ 0 & \quad\text{otherwise}\end{aligned}\right. fX(x)=P(X=x)={ (1p)1xpx0for x = 0 or 1otherwise
  • expectation
    • E ( X ) = p E(X) = p E(X)=p

Binomial distribution

  • pmf
    • f X ( k ) = P ( X = k ) = { C n k p k ( 1 − p ) n − k for k=0,1,....,n 0 otherwise f_X(k) = P(X= k) =\left\{\begin{aligned}C_n^kp^k(1-p)^{n-k} & \quad \text{for k=0,1,....,n}\\ 0 & \quad\text{otherwise}\end{aligned}\right. fX(k)=P(X=k)={ Cnkpk(1p)nk0for k=0,1,....,notherwise
  • expectation
    • E ( X ) = n p E(X) = np E(X)=np
  • variance
    • v a r ( X ) = n p ( 1 − p ) var(X) = np(1-p) var(X)=np(1p)

Geometric distribution

  • pmf
    • f X ( k ) = P ( X = k ) = { p ( 1 − p ) k − 1 for k=1,2,3... 0 otherwise f_X(k) = P(X= k) =\left\{\begin{aligned}p(1-p)^{k-1} & \quad \text{for k=1,2,3...}\\ 0 & \quad\text{otherwise}\end{aligned}\right. fX(k)=P(X=k)={ p(1p)k10for k=1,2,3...otherwise
  • expectation
    • E ( X ) = 1 P E(X) = \frac{1}{P} E(X)=P1

Negative binomial distribution

  • The negative binomial distribution arises as a generalization of the geometric distribution.

  • Suppose that a sequence of independent trials each with probability of success p p p is performed until there are r r r successes in all.

    • so can be denote as p ⋅ C k − 1 r − 1 p r − 1 ( 1 − p ) ( k − 1 ) − ( r − 1 ) p \cdot C_{k-1}^{r-1} p^{r-1}(1-p)^{(k-1)-(r-1)} pCk1r1pr1(1p)(k1)(r1)
  • pmf

    • f X ( k ) = P ( X = k ) = { C k − 1 r − 1 p r ( 1 − p ) k − r for k=1,2,3... 0 otherwise f_X(k) = P(X= k) =\left\{\begin{aligned}C_{k-1}^{r-1}p^r(1-p)^{k-r} & \quad \text{for k=1,2,3...}\\ 0 & \quad\text{otherwise}\end{aligned}\right. fX(k)
### 常见概率分布的特征及其可视化图表 #### 正态分布 (Normal Distribution) 正态分布是一种连续型概率分布,其特点是均值、中位数和众数相等。它的概率密度函数呈钟形曲线,具有对称性和集中趋势的特点[^1]。 常用的可视化方法包括直方图叠加核密度估计(KDE),以及QQ图来验证数据是否符合正态分布。 ```python import numpy as np import matplotlib.pyplot as plt from scipy.stats import norm data = np.random.normal(0, 1, 1000) plt.hist(data, bins=30, density=True, alpha=0.6, color='g') xmin, xmax = plt.xlim() x = np.linspace(xmin, xmax, 100) p = norm.pdf(x, 0, 1) plt.plot(x, p, 'k', linewidth=2) title = "Fit results: mu = %.2f, std = %.2f" % (0, 1) plt.title(title) plt.show() ``` --- #### 泊松分布 (Poisson Distribution) 泊松分布用于描述单位时间内随机事件发生的次数的概率分布。它适用于稀有事件的发生频率建模[^4]。通常通过条形图或折线图展示其概率质量函数(PMF)。 ```python from scipy.stats import poisson import seaborn as sns mu = 3 x = np.arange(poisson.ppf(0.01, mu), poisson.ppf(0.99, mu)) pmf = poisson.pmf(x, mu) sns.barplot(x=x, y=pmf, color="blue") plt.xlabel('Number of Events') plt.ylabel('Probability Mass Function') plt.title('Poisson Distribution PMF') plt.show() ``` --- #### 指数分布 (Exponential Distribution) 指数分布主要用于描述独立随机事件发生的时间间隔。它是无记忆性的典型代表之一[^3]。可以通过累积分布函数(CDF)或者生存函数(Survival Function)进行可视化分析。 ```python from scipy.stats import expon scale = 2. x = np.linspace(expon.ppf(0.01, scale=scale), expon.ppf(0.99, scale=scale), 100) pdf = expon.pdf(x, scale=scale) plt.plot(x, pdf, 'r-', lw=5, alpha=0.6, label='expon pdf') plt.fill_between(x, pdf, color='pink', alpha=0.5) plt.legend(loc='best') plt.title('Exponential Distribution PDF') plt.show() ``` --- #### 贝塔分布 (Beta Distribution) 贝塔分布在统计学中有广泛应用,特别是在共轭先验假设下作为二项式模型中的参数分布。其形状由两个正实数α和β控制[^2]。可以利用Seaborn库绘制其PDF图像。 ```python from scipy.stats import beta a, b = 2.5, 1.5 x = np.linspace(beta.ppf(0.01, a, b), beta.ppf(0.99, a, b), 100) pdf = beta.pdf(x, a, b) sns.lineplot(x=x, y=pdf, color="purple", linewidth=2.5) plt.fill_between(x, pdf, color="lavender", alpha=0.7) plt.title('Beta Distribution PDF') plt.show() ``` --- #### 卡方分布 (Chi-Square Distribution) 卡方分布广泛应用于假设检验领域,尤其是拟合优度测试和独立性检测等方面。一般采用KDE图配合理论分布曲线来进行比较研究。 ```python from scipy.stats import chi2 df = 5 x = np.linspace(chi2.ppf(0.01, df), chi2.ppf(0.99, df), 100) pdf = chi2.pdf(x, df) plt.plot(x, pdf, 'b-', lw=3, alpha=0.8, label='chi2 pdf') plt.axvline(x=np.median(pdf), linestyle="--", c="orange", label="Median") plt.legend() plt.title('Chi-Square Distribution PDF') plt.show() ``` --- #### t分布 (Student's T-Distribution) t分布是在小样本情况下替代标准正态分布的一种工具,在置信区间构建与显著性水平判断方面发挥重要作用。可借助Matplotlib实现动态调整自由度的效果演示。 ```python from scipy.stats import t fig, ax = plt.subplots(1, 1) degrees_of_freedom = [1, 2, 5, 10] for df in degrees_of_freedom: x = np.linspace(t.ppf(0.01, df), t.ppf(0.99, df), 100) pdf = t.pdf(x, df) ax.plot(x, pdf, label=f'df={df}') ax.set_title('T-Distribution with different Degrees of Freedom') ax.legend() plt.show() ``` --- #### F分布 (F-Distribution) F分布经常被用来衡量两组数据之间的差异程度,尤其是在ANOVA分析过程中起到核心作用。下面给出一个简单的绘图实例: ```python from scipy.stats import f dof_num, dof_denom = 5, 10 x = np.linspace(f.ppf(0.01, dof_num, dof_denom), f.ppf(0.99, dof_num, dof_denom), 100) pdf = f.pdf(x, dof_num, dof_denom) plt.plot(x, pdf, 'm--', lw=2, label='F pdf') plt.fill_between(x, pdf, facecolor='thistle', edgecolor='none', alpha=.5) plt.title('F-Distribution PDF Example') plt.show() ``` --- #### 总结 以上列举了几种常见概率分布形式连同它们各自的特性说明及对应的Python代码片段完成具体可视化的操作流程介绍。每一种分布都有独特的应用场景和技术背景支持,合理选用能够极大提升数据分析工作的效率与准确性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值