常见分布总结

本文介绍了统计学中的几种常见分布,包括二项分布、负二项分布、几何分布、超几何分布、泊松分布、指数分布、正态分布、T分布、F分布及卡方分布,并解释了它们的应用场景及特点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Source: https://www.youtube.com/watch?v=YXLVjCKVP7U&list=PLTNMv857s9WVzutwxaMb0YZKW7hoveGLS&ab_channel=zedstatistics

链接中的Youtube频道对统计相关的各种概念有很好的讲解,强烈推荐。本篇简单摘要记录一下常见的分布。

这些常见分布Excel都是支持的。

Binomial

  1. 2 outcomes per trial, proba p or (1-p)
  2. Trials are independent
  3. Number of success/failure follows binomial distribution

Negative Binomial

“负二项分布”与“二项分布”的区别在于:“二项分布”是固定试验总次数N的独立试验中,成功次数k的分布;而“负二项分布”是所有到r次成功时即终止的独立试验中,失败次数k的分布。

Geometric

Similar to Binomial Distribution but concerns the number of trials to get the first success.

Binomial: 抓10次牌,每次抓完放回去,抓到2次红桃的概率

Geomitric:抓7次牌才遇到红桃的概率

Hypergeometric

  1. Just like Binomial Distribution but without replacement. 事件之间不是独立的。

Binomial: 抓10次牌,每次抓完放回去,抓到2次红桃的概率

Hyper:抓10张牌,抓到2张红桃的概率

 

Poisson

  1. Discrete
  2. Number of events occuring in a fixed time interval or region of opportunity (不仅仅适用于时间!)
  3. Events are independent
  4. One parameter : lambda
  5.  >= 0

Exponential

The reverse of Poisson : 相邻两次events的间隔时间。注意,需要理解为什么曲线是单调下降而不是在均值附近凸起。例如,每两辆公交车之间的等待时间符合均值为十分钟的Exponential Distribution但是曲线仍是单调的。原因可以参考下图,大意就是,公交车在第二个时间点到来的概率,隐含了公交车之前没有到来这个事实,所以需要乘上这个概率。于是有了exponential terms

Normal

这个不必多说,多样本,连续分布

T distribution/test

主要用来处理小样本的统计。数据的背后是normal distribution不过拿到的样本很少,不知道variance。

此时可以根据样本的统计值来得出对应的t distribution,以近似背后的normal distribution

更需要知道的是t-test:用来测试两个分布的mean是否相同。

F test

测试两个分布的variance是否相同。https://zhuanlan.zhihu.com/p/139151375

方差分析与ANOVA:例如在检验一个因素x的不同取值是否对指标有影响,分别令x={1,10,100},每个取值实验n次,然后看指标y的值是否有差异。此时如果x=100时y普遍比较大,我们就能得出x的取值对y比较有影响吗?不一定,由于样本的偏差,这一结果可能是偶然的,于是就需要进行方差分析,判断在当前的方差观测下,不同x的y结果是否差异显著

Chi-Square distribution

首先,可以认为是N个正态分布的平方和。符合自由度为N的卡方分布。

然后要知道卡方检验的两个主要用途:

  1. 拟合优度的测试:两组样本是否符合同一个distribution
  2. 独立性测试:一个joint distribution的多个变量是否相关

 

### 常见概率分布的特征及其可视化图表 #### 正态分布 (Normal Distribution) 正态分布是一种连续型概率分布,其特点是均值、中位数众数相等。它的概率密度函数呈钟形曲线,具有对称性集中趋势的特点[^1]。 常用的可视化方法包括直方图叠加核密度估计(KDE),以及QQ图来验证数据是否符合正态分布。 ```python import numpy as np import matplotlib.pyplot as plt from scipy.stats import norm data = np.random.normal(0, 1, 1000) plt.hist(data, bins=30, density=True, alpha=0.6, color='g') xmin, xmax = plt.xlim() x = np.linspace(xmin, xmax, 100) p = norm.pdf(x, 0, 1) plt.plot(x, p, 'k', linewidth=2) title = "Fit results: mu = %.2f, std = %.2f" % (0, 1) plt.title(title) plt.show() ``` --- #### 泊松分布 (Poisson Distribution) 泊松分布用于描述单位时间内随机事件发生的次数的概率分布。它适用于稀有事件的发生频率建模[^4]。通常通过条形图或折线图展示其概率质量函数(PMF)。 ```python from scipy.stats import poisson import seaborn as sns mu = 3 x = np.arange(poisson.ppf(0.01, mu), poisson.ppf(0.99, mu)) pmf = poisson.pmf(x, mu) sns.barplot(x=x, y=pmf, color="blue") plt.xlabel('Number of Events') plt.ylabel('Probability Mass Function') plt.title('Poisson Distribution PMF') plt.show() ``` --- #### 指数分布 (Exponential Distribution) 指数分布主要用于描述独立随机事件发生的时间间隔。它是无记忆性的典型代表之一[^3]。可以通过累积分布函数(CDF)或者生存函数(Survival Function)进行可视化分析。 ```python from scipy.stats import expon scale = 2. x = np.linspace(expon.ppf(0.01, scale=scale), expon.ppf(0.99, scale=scale), 100) pdf = expon.pdf(x, scale=scale) plt.plot(x, pdf, 'r-', lw=5, alpha=0.6, label='expon pdf') plt.fill_between(x, pdf, color='pink', alpha=0.5) plt.legend(loc='best') plt.title('Exponential Distribution PDF') plt.show() ``` --- #### 贝塔分布 (Beta Distribution) 贝塔分布在统计学中有广泛应用,特别是在共轭先验假设下作为二项式模型中的参数分布。其形状由两个正实数αβ控制[^2]。可以利用Seaborn库绘制其PDF图像。 ```python from scipy.stats import beta a, b = 2.5, 1.5 x = np.linspace(beta.ppf(0.01, a, b), beta.ppf(0.99, a, b), 100) pdf = beta.pdf(x, a, b) sns.lineplot(x=x, y=pdf, color="purple", linewidth=2.5) plt.fill_between(x, pdf, color="lavender", alpha=0.7) plt.title('Beta Distribution PDF') plt.show() ``` --- #### 卡方分布 (Chi-Square Distribution) 卡方分布广泛应用于假设检验领域,尤其是拟合优度测试独立性检测等方面。一般采用KDE图配合理论分布曲线来进行比较研究。 ```python from scipy.stats import chi2 df = 5 x = np.linspace(chi2.ppf(0.01, df), chi2.ppf(0.99, df), 100) pdf = chi2.pdf(x, df) plt.plot(x, pdf, 'b-', lw=3, alpha=0.8, label='chi2 pdf') plt.axvline(x=np.median(pdf), linestyle="--", c="orange", label="Median") plt.legend() plt.title('Chi-Square Distribution PDF') plt.show() ``` --- #### t分布 (Student's T-Distribution) t分布是在小样本情况下替代标准正态分布的一种工具,在置信区间构建与显著性水平判断方面发挥重要作用。可借助Matplotlib实现动态调整自由度的效果演示。 ```python from scipy.stats import t fig, ax = plt.subplots(1, 1) degrees_of_freedom = [1, 2, 5, 10] for df in degrees_of_freedom: x = np.linspace(t.ppf(0.01, df), t.ppf(0.99, df), 100) pdf = t.pdf(x, df) ax.plot(x, pdf, label=f'df={df}') ax.set_title('T-Distribution with different Degrees of Freedom') ax.legend() plt.show() ``` --- #### F分布 (F-Distribution) F分布经常被用来衡量两组数据之间的差异程度,尤其是在ANOVA分析过程中起到核心作用。下面给出一个简单的绘图实例: ```python from scipy.stats import f dof_num, dof_denom = 5, 10 x = np.linspace(f.ppf(0.01, dof_num, dof_denom), f.ppf(0.99, dof_num, dof_denom), 100) pdf = f.pdf(x, dof_num, dof_denom) plt.plot(x, pdf, 'm--', lw=2, label='F pdf') plt.fill_between(x, pdf, facecolor='thistle', edgecolor='none', alpha=.5) plt.title('F-Distribution PDF Example') plt.show() ``` --- #### 总结 以上列举了几种常见的概率分布形式连同它们各自的特性说明及对应的Python代码片段完成具体可视化的操作流程介绍。每一种分布都有独特的应用场景技术背景支持,合理选用能够极大提升数据分析工作的效率与准确性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值