常见的几种概率分布

本文介绍了概率论中常见的离散概率分布(如伯努利、二项、多项分布)和连续概率分布(如均匀、指数、正态、拉普拉斯分布等),并详细解析了这些分布的特点及应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文章来源:http://blog.youkuaiyun.com/pipisorry/article/details/39076957

常见离散概率分布

Bernoulli、Binomial、Poisson

统计学(三):几种常见的概率分布

Note: 一般的二项分布是n次独立的伯努利试验的和。它的期望值和方差分别等于每次单独试验的期望值和方差的和。

伯努利、二项分布、多项分布

伯努利分布就是对单次抛硬币的建模,X~Bernoulli(p)的PDF为 f(x)=px(1−p)1−x ,随机变量X只能取{0, 1}。对于所有的pdf,都要归一化!而这里对于伯努利分布,已经天然归一化了,因此归一化参数就是1。

很多次抛硬币的建模就是二项分布了。注意二项分布有两个参数,n和p,要考虑抛的次数。

二项分布的取值X一般是出现正面的次数,其PDF为:

f(x)=P(X=x)=P(X=x|n,p)=Cxnpx(1−p)n−x

Cxn 就是二项分布pdf的归一化参数。如果是beta分布,把Cxn换成beta函数分之一即可,这样可以从整数情况推广为实数情况。所以beta分布是二项分布的实数推广!

多项分布则更进一层,抛硬币时X只能有两种取值,当X有多种取值时,就应该用多项分布建模。

这时参数p变成了一个向量 p⃗ =(p1,…,pk) 表示每一个取值被选中的概率,那么X~Multinomial(n,p)的PDF为:

f(x)=P(x1, , xk|n,p⃗ )=(nx1, , xk)px11pxkk=n!ki=1xi!pxix

多项式分布Multinomial


皮皮blog



常见连续概率分布


常见的概率分布_文库下载http://www.wenkuxiazai.com/doc/e14db3d233d4b14e852468c0.html

常见的概率分布_文库下载http://www.wenkuxiazai.com/doc/e14db3d233d4b14e852468c0.html

常见的连续分布的概率密度函数和累积分布度函数:

均匀分布

指数分布

正态分布与卡方分布

统计学(三):几种常见的概率分布

[概率论:高斯分布]

Beta分布

拉普拉斯分布 Laplace Dist

在概率论与统计学中,拉普拉斯分布是以皮埃尔-西蒙·拉普拉斯的名字命名的一种连续概率分布。由于它可以看作是两个不同位置的指数分布背靠背拼接在一起,所以它也叫作双指数分布。当数据分布的波峰比正态分布更尖锐时使用 Laplace 分布。例如,Laplace 分布用于生物、金融和经济学方面的建模。

两个相互独立同概率分布指数随机变量之间的差别是按照指数分布的随机时间布朗运动,所以它遵循拉普拉斯分布。

拉普拉斯分布概率密度图  拉普拉斯分布累积概率密度图

概率密度函数                                                                                         累积分布函数

概率分布、概率密度以及分位数函数

如果随机变量的概率密度函数分布为

f(x|\mu,b) = \frac{1}{2b} \exp \left( -\frac{|x-\mu|}{b} \right) \,\!
    = \frac{1}{2b}    \left\{\begin{matrix}      \exp \left( -\frac{\mu-x}{b} \right) & \mbox{if }x < \mu      \\[8pt]      \exp \left( -\frac{x-\mu}{b} \right) & \mbox{if }x \geq \mu    \end{matrix}\right.

那么它就是拉普拉斯分布。其中,μ 是位置参数,b > 0 是尺度参数。如果 μ = 0,那么,正半部分恰好是尺度为 1/2 的指数分布。

拉普拉斯分布的概率密度函数让我们联想到正态分布,但是,正态分布是用相对于 μ 平均值的差的平方来表示,而拉普拉斯概率密度用相对于平均值的差的绝对值来表示。因此,拉普拉斯分布的尾部比正态分布更加平坦

根据绝对值函数,如果将一个拉普拉斯分布分成两个对称的情形,那么很容易对拉普拉斯分布进行积分。它的累积分布函数为:

F(x)\,= \int_{-\infty}^x \!\!f(u)\,\mathrm{d}u
    = \left\{\begin{matrix}             &\frac12 \exp \left( -\frac{\mu-x}{b} \right) & \mbox{if }x < \mu             \\[8pt]             1-\!\!\!\!&\frac12 \exp \left( -\frac{x-\mu}{b} \right) & \mbox{if }x \geq \mu            \end{matrix}\right.
 =0.5\,[1 + \sgn(x-\mu)\,(1-\exp(-|x-\mu|/b))]

逆累积分布函数为

F^{-1}(p) = \mu - b\,\sgn(p-0.5)\,\ln(1 - 2|p-0.5|)

拉普拉斯分布的数字特征

参数\mu\, 位置参数(实数)
b > 0\, 尺度参数(实数)
支撑集x \in (-\infty; +\infty)\,
概率密度函数\frac{1}{2\,b} \exp \left(-\frac{|x-\mu|}b \right) \,
期望值\mu\,
中位数\mu\,
众数\mu\,
方差2\,b^2
偏度0\,
峰度3\,
信息熵1 + \ln(2\,b)
动差生成函数\frac{\exp(\mu\,t)}{1-b^2\,t^2}\,\! for |t|<1/b\,
特性函数\frac{\exp(\mu\,i\,t)}{1+b^2\,t^2}\,\!

拉普拉斯分布的性质

  • 如果 Y = |X-\mu| 并且 X \sim \mathrm{Laplace},则 Y \sim \mathrm{Exponential} 是指数分布
  • 如果 Y = X_1 - X_2 与 X_1,\, X_2 \sim \mathrm{Exponential},则 Y \sim \mathrm{Laplace}

[wikipedia 拉普拉斯分布]

Gaussian-Exponential Mixture

laplace分布可以看成是高斯分布和指数分布的混合体。

### 常见概率分布的特征及其可视化图表 #### 正态分布 (Normal Distribution) 正态分布是一种连续型概率分布,其特点是均值、中位数众数相等。它的概率密度函数呈钟形曲线,具有对称性集中趋势的特点[^1]。 常用的可视化方法包括直方图叠加核密度估计(KDE),以及QQ图来验证数据是否符合正态分布。 ```python import numpy as np import matplotlib.pyplot as plt from scipy.stats import norm data = np.random.normal(0, 1, 1000) plt.hist(data, bins=30, density=True, alpha=0.6, color='g') xmin, xmax = plt.xlim() x = np.linspace(xmin, xmax, 100) p = norm.pdf(x, 0, 1) plt.plot(x, p, 'k', linewidth=2) title = "Fit results: mu = %.2f, std = %.2f" % (0, 1) plt.title(title) plt.show() ``` --- #### 泊松分布 (Poisson Distribution) 泊松分布用于描述单位时间内随机事件发生的次数的概率分布。它适用于稀有事件的发生频率建模[^4]。通常通过条形图或折线图展示其概率质量函数(PMF)。 ```python from scipy.stats import poisson import seaborn as sns mu = 3 x = np.arange(poisson.ppf(0.01, mu), poisson.ppf(0.99, mu)) pmf = poisson.pmf(x, mu) sns.barplot(x=x, y=pmf, color="blue") plt.xlabel('Number of Events') plt.ylabel('Probability Mass Function') plt.title('Poisson Distribution PMF') plt.show() ``` --- #### 指数分布 (Exponential Distribution) 指数分布主要用于描述独立随机事件发生的时间间隔。它是无记忆性的典型代表之一[^3]。可以通过累积分布函数(CDF)或者生存函数(Survival Function)进行可视化分析。 ```python from scipy.stats import expon scale = 2. x = np.linspace(expon.ppf(0.01, scale=scale), expon.ppf(0.99, scale=scale), 100) pdf = expon.pdf(x, scale=scale) plt.plot(x, pdf, 'r-', lw=5, alpha=0.6, label='expon pdf') plt.fill_between(x, pdf, color='pink', alpha=0.5) plt.legend(loc='best') plt.title('Exponential Distribution PDF') plt.show() ``` --- #### 贝塔分布 (Beta Distribution) 贝塔分布在统计学中有广泛应用,特别是在共轭先验假设下作为二项式模型中的参数分布。其形状由两个正实数αβ控制[^2]。可以利用Seaborn库绘制其PDF图像。 ```python from scipy.stats import beta a, b = 2.5, 1.5 x = np.linspace(beta.ppf(0.01, a, b), beta.ppf(0.99, a, b), 100) pdf = beta.pdf(x, a, b) sns.lineplot(x=x, y=pdf, color="purple", linewidth=2.5) plt.fill_between(x, pdf, color="lavender", alpha=0.7) plt.title('Beta Distribution PDF') plt.show() ``` --- #### 卡方分布 (Chi-Square Distribution) 卡方分布广泛应用于假设检验领域,尤其是拟合优度测试独立性检测等方面。一般采用KDE图配合理论分布曲线来进行比较研究。 ```python from scipy.stats import chi2 df = 5 x = np.linspace(chi2.ppf(0.01, df), chi2.ppf(0.99, df), 100) pdf = chi2.pdf(x, df) plt.plot(x, pdf, 'b-', lw=3, alpha=0.8, label='chi2 pdf') plt.axvline(x=np.median(pdf), linestyle="--", c="orange", label="Median") plt.legend() plt.title('Chi-Square Distribution PDF') plt.show() ``` --- #### t分布 (Student's T-Distribution) t分布是在小样本情况下替代标准正态分布的一种工具,在置信区间构建与显著性水平判断方面发挥重要作用。可借助Matplotlib实现动态调整自由度的效果演示。 ```python from scipy.stats import t fig, ax = plt.subplots(1, 1) degrees_of_freedom = [1, 2, 5, 10] for df in degrees_of_freedom: x = np.linspace(t.ppf(0.01, df), t.ppf(0.99, df), 100) pdf = t.pdf(x, df) ax.plot(x, pdf, label=f'df={df}') ax.set_title('T-Distribution with different Degrees of Freedom') ax.legend() plt.show() ``` --- #### F分布 (F-Distribution) F分布经常被用来衡量两组数据之间的差异程度,尤其是在ANOVA分析过程中起到核心作用。下面给出一个简单的绘图实例: ```python from scipy.stats import f dof_num, dof_denom = 5, 10 x = np.linspace(f.ppf(0.01, dof_num, dof_denom), f.ppf(0.99, dof_num, dof_denom), 100) pdf = f.pdf(x, dof_num, dof_denom) plt.plot(x, pdf, 'm--', lw=2, label='F pdf') plt.fill_between(x, pdf, facecolor='thistle', edgecolor='none', alpha=.5) plt.title('F-Distribution PDF Example') plt.show() ``` --- #### 总结 以上列举了几种常见概率分布形式连同它们各自的特性说明及对应的Python代码片段完成具体可视化的操作流程介绍。每一种分布都有独特的应用场景技术背景支持,合理选用能够极大提升数据分析工作的效率与准确性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值