🌈🌈🌈往期精选内容:
💖【数学建模】灰色关联分析(GRA):从数学原理到实战应用的全方位解析-优快云博客
💖【数学建模】CRITIC权重法解析:从数学原理到实战分析-优快云博客
💖【数学建模】TOPSIS算法全解析:从数学原理到医疗器械采购决策应用-优快云博客
描述统计量与常见概率分布:从理论到实践的深度解析
- 引言
- 📚一 、描述统计量
- 📚二、常见概率分布
- 🚀(一)离散概率分布
- 🚀(二)连续概率分布
- 🌟1、正态分布(`Normal Distribution`)
- 🌟2、均匀分布(`Uniform Distribution`)
- 🌟3、指数分布(`Exponential Distribution`)
- 🌟4、t 分布(`Student's t-Distribution`)
- 🌟5、拉普拉斯分布(`Laplace Distribution`)
- 🌟6、Logistic 分布(`Logistic Distribution`)
- 🌟7、帕累托分布(`Pareto Distribution`)
- 🌟8、威布尔分布(`Weibull Distribution`)
- 🌟9、Beta 分布(`Beta Distribution`)
- 🌟10、卡方分布(`Chi-Squared Distribution`)
- 🌟11、Gamma 分布(`Gamma Distribution`)
- 📚三、描述统计量与概率分布的关系
引言
描述统计量用于总结和描述数据的特征,帮助我们快速了解数据的集中趋势、离散程度和分布形状。而概率分布则用于描述随机变量的取值规律,为数据分析提供了理论基础。掌握描述统计量与概率分布,能够帮助我们更好地理解数据的内在规律,为后续的推断统计和预测分析奠定基础。本文将系统介绍描述统计量和常见概率分布的基本概念、计算方法及其实际应用。通过理论与实例相结合的方式,帮助读者深入理解这些统计工具,并掌握如何在实际数据分析中应用它们。
📚一 、描述统计量
🚀(一)集中趋势度量
🌟1、 均值(Mean
)
-
定义与计算公式
均值是数据集中所有数值的平均值,反映了数据的中心位置。计算公式为:
x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i xˉ=n1i=1∑nxi
其中, x i x_i xi 表示数据集中的第 i i i 个数值, n n n 为数据的总数。 -
优点与缺点
优点:均值能够充分利用所有数据信息,计算简单。
缺点:均值对极端值敏感,容易受到异常值的影响。 -
应用:分析某公司员工的平均薪资
分析某公司员工的平均薪资。假设某公司有5名员工,薪资分别为5000元、6000元、7000元、8000元和100000元。计算平均薪资:
x ˉ = 5000 + 6000 + 7000 + 8000 + 100000 5 = 23400 元 \bar{x} = \frac{5000 + 6000 + 7000 + 8000 + 100000}{5} = 23400 \text{元} xˉ=55000+6000+7000+8000+100000=23400元
从结果可以看出,由于存在一个极端值(100000元),平均薪资明显偏高,不能很好地反映大多数员工的实际薪资水平。
🌟2、中位数(Median
)
-
定义与计算方法
中位数是将数据从小到大排序后位于中间位置的数值。如果数据个数为奇数,则中位数为中间的数值;如果数据个数为偶数,则中位数为中间两个数值的平均值。计算公式为:
Median = { x ( n + 1 ) / 2 , 如果 n 是奇数 x n / 2 + x ( n / 2 ) + 1 2 , 如果 n 是偶数 \text{Median} = \begin{cases} x_{(n+1)/2}, & \text{如果 } n \text{ 是奇数} \\ \frac{x_{n/2} + x_{(n/2)+1}}{2}, & \text{如果 } n \text{ 是偶数} \end{cases} Median={x(n+1)/2,2xn/2+x(n/2)+1,如果 n 是奇数如果 n 是偶数
其中, x ( i ) x_{(i)} x(i) 表示排序后的第 i i i 个数值。 -
优点与缺点
优点:中位数不受极端值的影响,能够更好地反映数据的中心位置。
缺点:计算过程相对复杂,且无法充分利用所有数据信息。 -
应用:计算某地区房价的中位数
计算某地区房价的中位数。假设某地区有7套房屋,房价分别为200万元、250万元、300万元、350万元、400万元、450万元和500万元。计算中位数:
Median = x ( 7 + 1 ) / 2 = x 4 = 350 万元 \text{Median} = x_{(7+1)/2} = x_4 = 350 \text{万元} Median=x(7+1)/2=x4=350万元
中位数350万元能够更好地反映该地区房价的中心水平,不受极端高价或低价的影响。
🌟3、众数(Mode
)
-
定义与求法
众数是数据集中出现次数最多的数值。如果数据集中有多个数值出现次数相同且最多,则这些数值都是众数。计算方法是统计每个数值的出现次数,并找出出现次数最多的数值。 -
优点与缺点
优点:众数能够直观地反映数据的集中趋势,且不受极端值的影响。
缺点:众数可能不唯一,且在数据分布较为均匀时可能无法有效反映数据的中心位置。 -
应用:找出某品牌产品最受欢迎的颜色
找出某品牌产品最受欢迎的颜色。假设某品牌销售了100件产品,其中红色25件、蓝色30件、黄色20件、绿色15件、黑色10件。
M o d e = 蓝色 Mode=蓝色 Mode=蓝色
众数为蓝色,因为蓝色的销售数量最多。
🌟4、平均差(Mean Deviation
)
-
定义与计算公式
平均差指的是各个数据值与平均数的离差绝对值的算术平均数,用于衡量数据的离散程度。计算公式为:
M D = 1 n ∑ i = 1 n ∣ x i − x ˉ ∣ MD = \frac{1}{n} \sum_{i=1}^{n} |x_i - \bar{x}| MD=n1i=1∑n∣xi−xˉ∣
其中, x i x_i xi 表示数据集中的第 i i i 个数值, x ˉ \bar{x} xˉ 表示数据的均值, n n n 为数据的总数。 -
优点与缺点
优点:平均差能够直接反映数据与均值的平均距离,计算方法较为直观,受极端值的影响相对较小。
缺点:计算过程中涉及绝对值,数学处理相对不便,不如方差和标准差在统计推断中常用。 -
应用:分析某班级学生考试成绩的平均差
分析某班级学生考试成绩的平均差。假设某班级有5名学生,考试成绩分别为:60分、70分、80分、90分、100分。计算平均差:
x ˉ = 60 + 70 + 80 + 90 + 100 5 = 80 分 \bar{x} = \frac{60 + 70 + 80 + 90 + 100}{5} = 80分 xˉ=560+70+80+90+100=80分
M D = ∣ 60 − 80 ∣ + ∣ 70 − 80 ∣ + ∣ 80 − 80 ∣ + ∣ 90 − 80 ∣ + ∣ 100 − 80 ∣ 5 = 20 + 10 + 0 + 10 + 20 5 = 12 分 MD = \frac{|60 - 80| + |70 - 80| + |80 - 80| + |90 - 80| + |100 - 80|}{5} = \frac{20 + 10 + 0 + 10 + 20}{5} = 12分 MD=5∣60−80∣+∣70−80∣+∣80−80∣+∣90−80∣+∣100−80∣=520+10+0+10+20=12分
平均差为12分,表示这些成绩与均值的平均距离为12分,反映了数据的离散程度。
🚀(二)、离散程度度量
🌟1、极差(Range
)
-
定义与计算
极差是数据集中最大值与最小值的差,反映了数据的波动范围。计算公式为:
Range = max ( x i ) − min ( x i ) \text{Range} = \max(x_i) - \min(x_i) Range=max(xi)−min(xi) -
优点与缺点
优点:计算简单,直观反映数据的波动范围。
缺点:仅依赖于最大值和最小值,无法反映数据的整体离散情况。 -
应用:计算某班级学生考试成绩的极差
计算某班级学生考试成绩的极差。假设某班级学生的考试成绩分别为60分、70分、80分、90分和100分。计算极差:
Range = 100 − 60 = 40 分 \text{Range} = 100 - 60 = 40 \text{分} Range=100−60=40分
极差40分表明该班级学生成绩的波动范围为40分。
🌟2、方差(Variance
)
-
定义与计算公式
方差是各数据与其均值差的平方的平均值,反映了数据的离散程度。计算公式为:
σ 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 \sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 σ2=n1i=1∑n(xi−xˉ)2
其中, x ˉ \bar{x} xˉ 为数据的均值。 -
优点与缺点
优点:方差能够充分利用所有数据信息,反映数据的离散程度。
缺点:方差的单位是原数据单位的平方,不易直观理解。 -
应用:分析不同品牌汽车油耗的方差
分析不同品牌汽车油耗的方差。假设某研究机构收集了5款汽车的油耗数据(单位:升/百公里),分别为6.5、7.0、7.5、8.0和8.5。计算方差:
x ˉ = 6.5 + 7.0 + 7.5 + 8.0 + 8.5 5 = 7.5 \bar{x} = \frac{6.5 + 7.0 + 7.5 + 8.0 + 8.5}{5} = 7.5 xˉ=56.5+7.0+7.5+8.0+8.5=7.5
σ 2 = ( 6.5 − 7.5 ) 2 + ( 7.0 − 7.5 ) 2 + ( 7.5 − 7.5 ) 2 + ( 8.0 − 7.5 ) 2 + ( 8.5 − 7.5 ) 2 5 = 0.5 \sigma^2 = \frac{(6.5 - 7.5)^2 + (7.0 - 7.5)^2 + (7.5 - 7.5)^2 + (8.0 - 7.5)^2 + (8.5 - 7.5)^2}{5} = 0.5 σ2=5(6.5−7.5)2+(7.0−7.5)2+(7.5−7.5)2+(8.0−7.5)2+(8.5−7.5)2=0.5
方差0.5表明这5款汽车油耗数据的离散程度较小。
🌟3、标准差(Standard Deviation
)
-
定义与计算
标准差是方差的平方根,与原数据单位一致,反映了数据的离散程度。计算公式为:
σ = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 \sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2} σ=n1i=1∑n(xi−xˉ)2 -
优点与缺点
优点:标准差与原数据单位一致,易于理解,能够直观反映数据的离散程度。
缺点:计算过程相对复杂。 -
应用:评估某股票收益率的标准差
评估某股票收益率的标准差。假设某股票在5个交易日的收益率分别为2%、3%、4%、5%和6%。计算标准差:
x ˉ = 2 + 3 + 4 + 5 + 6 5 = 4 % \bar{x} = \frac{2 + 3 + 4 + 5 + 6}{5} = 4\% xˉ=52+3+4+5+6=4%
σ = ( 2 − 4 ) 2 + ( 3 − 4 ) 2 + ( 4 − 4 ) 2 + ( 5 − 4 ) 2 + ( 6 − 4 ) 2 5 ≈ 1.41 % \sigma = \sqrt{\frac{(2 - 4)^2 + (3 - 4)^2 + (4 - 4)^2 + (5 - 4)^2 + (6 - 4)^2}{5}} \approx 1.41\% σ=5(2−4)2+(3−4)2+(4−4)2+(5−4)2+(6−4)2≈1.41%
标准差1.41%表明该股票收益率的波动程度。
🌟4、变异系数(Coefficient of Variation
)
-
定义与计算
变异系数是标准差与均值的比值,用于比较不同数据集的离散程度。计算公式为:
CV = σ x ˉ \text{CV} = \frac{\sigma}{\bar{x}} CV=xˉσ -
优点与缺点
优点:变异系数消除了数据量纲的影响,适用于不同数据集的离散程度比较。
缺点:当均值接近零时,变异系数可能失去意义,且不能用于比较均值为负的变量。 -
应用:比较不同行业利润率的变异系数
假设两个行业的利润率数据分别为:
行业A:10%、12%、14%、16%
行业B:20%、22%、24%、26%
计算变异系数:
CV A = σ A x ˉ A = 2 13 ≈ 0.154 CV B = σ B x ˉ B = 2 23 ≈ 0.087 \text{CV}_A = \frac{\sigma_A}{\bar{x}_A} = \frac{2}{13} \approx 0.154 \\ \text{CV}_B = \frac{\sigma_B}{\bar{x}_B} = \frac{2}{23} \approx 0.087 CVA=xˉAσA=132≈0.154CVB=xˉBσB=232≈0.087
行业A的利润率波动更大。
🌟5、四分位数(Quartiles
)
-
定义与计算方法
四分位数是将数据集分成四个相等部分的数值,反映了数据的分布形状和离散程度。具体包括:- 第一四分位数(Q1):数据排序后位于25%位置的值,表示有25%的数据小于或等于该值。
- 第二四分位数(Q2):即中位数,数据排序后位于50%位置的值,表示有50%的数据小于或等于该值。
- 第三四分位数(Q3):数据排序后位于75%位置的值,表示有75%的数据小于或等于该值。
计算步骤如下:
- 将数据从小到大排序。
- 计算 Q 1 Q1 Q1的位置:若数据个数 n n n为奇数,则 Q 1 Q1 Q1位于第 n + 1 4 \frac{n+1}{4} 4n+1个位置;若 n n n为偶数,则Q1位于第 n 4 \frac{n}{4} 4n个位置。若位置不是整数,则取相邻两个数值的插值。
- Q 2 Q2 Q2即中位数,计算方法同前文所述。
- 计算Q3的位置:若数据个数 n n n为奇数,则 Q 3 Q3 Q3位于第 3 × n + 1 4 3 \times \frac{n+1}{4} 3×4n+1个位置;若 n n n为偶数,则Q3位于第 3 × n 4 3 \times \frac{n}{4} 3×4n个位置。若位置不是整数,则取相邻两个数值的插值。
-
优点与缺点
优点:- 四分位数不受极端值的影响,能够更好地反映数据的分布特征。
- 可以直观地了解数据的分布范围和集中趋势。
- 通过四分位数可以计算四分位距( I Q R = Q 3 − Q 1 IQR = Q3 - Q1 IQR=Q3−Q1),用于识别异常值和数据的离散程度。
缺点:
- 计算过程相对复杂,需要对数据进行排序和位置计算。
- 无法充分利用所有数据信息,仅基于特定位置的数值进行分析。
-
应用:分析某班级学生考试成绩的四分位数
分析某班级学生考试成绩的四分位数。假设某班级有10名学生,考试成绩分别为:60、65、70、75、80、85、90、95、100。计算四分位数:- 数据已经排序:60、65、70、75、80、85、90、95、100。
- 计算 Q 1 Q1 Q1的位置: n = 9 n = 9 n=9(奇数),Q1位于第 9 + 1 4 = 2.5 \frac{9+1}{4} = 2.5 49+1=2.5个位置,取第2个和第3个数值的平均值: 65 + 70 2 = 67.5 \frac{65 + 70}{2} = 67.5 265+70=67.5。
- Q 2 Q2 Q2即中位数,位于第 9 + 1 2 = 5 \frac{9+1}{2} = 5 29+1=5个位置,值为80。
- 计算 Q 3 Q3 Q3的位置: 3 × 9 + 1 4 = 7.5 3 \times \frac{9+1}{4} = 7.5 3×49+1=7.5个位置,取第7个和第8个数值的平均值: 90 + 95 2 = 92.5 \frac{90 + 95}{2} = 92.5 290+95=92.5。
四分位数结果为: Q 1 = 67.5 分, Q 2 = 80 分, Q 3 = 92.5 分 Q1 = 67.5分,Q2 = 80分,Q3 = 92.5分 Q1=67.5分,Q2=80分,Q3=92.5分。四分位距 I Q R = 92.5 − 67.5 = 25 IQR = 92.5 - 67.5 = 25 IQR=92.5−67.5=25分,表明中间50%学生成绩的分布范围为25分。
🌟6、离散系数(Coefficient of Variation
)
-
定义与计算公式
离散系数又称变异系数,是用于比较不同样本数据离散程度的相对统计量。它表示标准差与均值的比值,计算公式为:
CV = ( σ x ˉ ) × 100 % \text{CV} = \left( \frac{\sigma}{\bar{x}} \right) \times 100\% CV=(xˉσ)×100%
其中, σ \sigma σ 表示样本标准差, x ˉ \bar{x} xˉ 表示样本均值。 -
优点与缺点
优点:离散系数能够消除不同数据集均值水平不同的影响,用于比较不同样本数据的离散程度。离散系数越大,表示数据的离散程度越大;反之,离散系数越小,表示数据的离散程度越小。
缺点:离散系数的计算依赖于均值和标准差,对于均值接近零的数据,结果可能不稳定。 -
应用:比较不同行业利润率的离散系数
假设两个行业的利润率数据分别为:
行业A:10%、12%、14%、16%
行业B:20%、22%、24%、26%
计算各行业的均值和标准差:
行业A均值: x ˉ A = 10 + 12 + 14 + 16 4 = 13 % \bar{x}_A = \frac{10 + 12 + 14 + 16}{4} = 13\% xˉA=410+12+14+16=13%
行业A标准差: σ A = ( 10 − 13 ) 2 + ( 12 − 13 ) 2 + ( 14 − 13 ) 2 + ( 16 − 13 ) 2 4 = 2.236 % \sigma_A = \sqrt{\frac{(10-13)^2 + (12-13)^2 + (14-13)^2 + (16-13)^2}{4}} = 2.236\% σA=4(10−13)2+(12−13)2+(14−13)2+(16−13)2=2.236%
行业B均值: x ˉ B = 20 + 22 + 24 + 26 4 = 23 % \bar{x}_B = \frac{20 + 22 + 24 + 26}{4} = 23\% xˉB=420+22+24+26=23%
行业B标准差: σ B = ( 20 − 23 ) 2 + ( 22 − 23 ) 2 + ( 24 − 23 ) 2 + ( 26 − 23 ) 2 4 = 2.236 % \sigma_B = \sqrt{\frac{(20-23)^2 + (22-23)^2 + (24-23)^2 + (26-23)^2}{4}} = 2.236\% σB=4(20−23)2+(22−23)2+(24−23)2+(26−23)2=2.236%
计算离散系数:
CV A = ( 2.236 13 ) × 100 % ≈ 17.2 % CV B = ( 2.236 23 ) × 100 % ≈ 9.7 % \text{CV}_A = \left( \frac{2.236}{13} \right) \times 100\% \approx 17.2\% \\ \text{CV}_B = \left( \frac{2.236}{23} \right) \times 100\% \approx 9.7\% CVA=(132.236)×100%≈17.2%CVB=(232.236)×100%≈9.7%
行业A的离散系数大于行业B,说明行业A的利润率数据离散程度较大,波动更明显。
🌟7、异众比率(Coefficient of Variation
)
-
定义与计算公式
异众比率是总体中非众数次数与总体全部次数之比,用于衡量非众数的频数在总频数中的比例。计算公式为:
异众比率 = N − f m N \text{异众比率} = \frac{N - f_m}{N} 异众比率=NN−fm
其中, N N N 表示总体全部次数, f m f_m fm表示众数的频数。 -
优点与缺点
优点:异众比率能够反映众数对数据集的代表性,帮助评估众数的可靠性。
缺点:异众比率的计算依赖于频数分布,对于连续数据或分类数据较多的情况,计算较为复杂。 -
应用:评估某品牌产品颜色的异众比率
假设某品牌销售了100件产品,其中红色25件、蓝色30件、黄色20件、绿色15件、黑色10件。蓝色是众数,其频数为30。计算异众比率:
异众比率 = 100 − 30 100 = 0.7 \text{异众比率} = \frac{100 - 30}{100} = 0.7 异众比率=100100−30=0.7
异众比率为0.7,表示非众数组的频数占总频数的70%,众数的代表性较差。
🌟8、标准误(Standard Error of Mean
)
-
定义与计算公式
标准误描述了均值抽样分布的离散程度和均值抽样误差的尺度。它是样本均值的标准差,反映了样本均值之间的变异。计算公式为:
SEM = σ n \text{SEM} = \frac{\sigma}{\sqrt{n}} SEM=nσ其中, σ \sigma σ表示样本标准差, n n n 表示样本量。
-
优点与缺点
优点:标准误能够衡量抽样误差和推断总体参数的可靠性,是统计推断的重要指标。
缺点:标准误的计算依赖于样本标准差,对于小样本或非正态分布的数据,结果可能不够准确。 -
应用:评估某地区居民身高的标准误
假设某地区有100名居民,身高数据的标准差为10cm。从中抽取一个样本量为25的样本,计算标准误:
SEM = 10 25 = 2 cm \text{SEM} = \frac{10}{\sqrt{25}} = 2 \text{cm} SEM=2510=2cm
标准误为2cm,表示样本均值与总体均值之间的变异程度。
🚀(三)分布形状度量
🌟1. 偏度(Skewness
)
-
定义:
偏度是描述分布偏斜方向和程度的统计量。如果数据分布是对称的,则偏度为0;如果数据分布向右偏(正偏),偏度为正;如果数据分布向左偏(负偏),偏度为负。计算公式:
Skewness = 1 n ∑ i = 1 n ( x i − x ˉ σ ) 3 \text{Skewness} = \frac{1}{n} \sum_{i=1}^{n} \left(\frac{x_i - \bar{x}}{\sigma}\right)^3 Skewness=n1i=1∑n(σxi−xˉ)3
其中, x i x_i xi 是数据点, x ˉ \bar{x} xˉ 是样本均值, σ \sigma σ 是标准差, n n n是样本数量。解读:
-
偏度大于0:右偏(Positive Skew),表示数据分布的尾部向右延伸,即数据向左侧偏离了中心,大部分数据位于均值右侧。
-
偏度小于0:左偏(Negative Skew),表示数据分布的尾部向左延伸,即数据向右侧偏离了中心,大部分数据位于均值左侧。
-
偏度接近0:数据相对对称分布。
-
绝对值大于 0:偏态。
-
绝对值大于 1:高度偏态。
-
绝对值0.5-1: 中等偏态。
-
优点与缺点
优点:偏度能够反映数据分布的对称性,帮助识别数据的偏斜方向。
缺点:偏度的计算较为复杂,且对样本量敏感。 -
应用:分析某城市居民收入分布的偏度
分析某城市居民收入分布的偏度。假设某城市居民收入数据呈右偏分布(即大部分居民收入较低,少数居民收入较高)。计算偏度值为1.2,表明该城市居民收入分布明显右偏,存在较多高收入人群。
🌟2. 峰度(Kurtosis
)
-
定义:
峰度是描述分布形状尖峭程度的统计量。具体来说,它衡量了分布中数据集中在中心位置附近的相对大小,以及尾部数据相对于中心位置的分布情况。 -
计算公式:
Kurtosis = 1 n ∑ i = 1 n ( x i − x ˉ σ ) 4 − 3 \text{Kurtosis} = \frac{1}{n} \sum_{i=1}^{n} \left(\frac{x_i - \bar{x}}{\sigma}\right)^4 - 3 Kurtosis=n1i=1∑n(σxi−xˉ)4−3
其中, x i x_i xi 是数据点, x ˉ \bar{x} xˉ 是样本均值, σ \sigma σ 是标准差, n n n 是样本数量。解读:
-
峰度大于0:尖峰(Leptokurtic),表示数据集中在中心附近的数据比较集中,尾部数据比较少,分布较为尖锐。
-
峰度等于0:正态分布(Mesokurtic),表示数据的分布符合正态分布的标准。
-
峰度小于0:扁平(Platykurtic),表示数据集中在中心附近的数据相对较少,分布比较平坦,尾部数据相对较多。
-
优点与缺点
优点:峰度能够反映数据分布的尖峭或平坦程度,帮助识别数据的尾部特征。
缺点:峰度的计算较为复杂,且对异常值敏感。 -
应用:研究某考试成绩分布的峰度
研究某考试成绩分布的峰度。假设某考试成绩数据呈尖峰分布(即大部分学生成绩集中在某个区间,且极端值较少)。计算峰度值为1.5,表明该考试成绩分布比正态分布更尖峭,存在较少的极端高分或低分。
🚀Python代码示例
import pandas as pd
import numpy as np
# 生成示例数据
data = pd.DataFrame({
'销售额': [120, 150, 130, 200, 110, 90, 300, 180]
})
# 计算描述性统计量
desc = data.describe()
desc.loc['偏度'] = data.skew()
desc.loc['峰度'] = data.kurtosis()
desc.loc['变异系数'] = desc.loc['std'] / desc.loc['mean'] * 100
# 计算集中趋势度量
desc.loc['均值'] = desc.loc['mean']
desc.loc['中位数'] = data.median()
# 计算众数的频数
mode_freq = data.value_counts().max()
desc.loc['众数'] = data.mode().iloc[0]
desc.loc['平均差'] = np.mean(np.abs(data - data.mean()))
# 计算离散程度度量
desc.loc['极差'] = data.max() - data.min()
# 将四分位数存储为元组
quartiles = tuple(data.quantile([0.25, 0.5, 0.75]).values.flatten())
desc.loc['四分位数'] = [quartiles]
# 计算异众比率
desc.loc['异众比率'] = (len(data) - mode_freq) / len(data)
desc.loc['标准误'] = desc.loc['std'] / np.sqrt(len(data))
# 计算离散系数
desc.loc['离散系数 (CV)'] = (desc.loc['std'] / desc.loc['mean']) * 100
desc=desc.T
# 创建一个新的 DataFrame 来存储格式化后的值
desc_formatted_df = desc.copy()
# 格式化百分比显示
desc_formatted_df['变异系数'] = desc_formatted_df['变异系数'].apply(lambda x: f'{x:.2f}%')
desc_formatted_df['离散系数 (CV)'] = desc_formatted_df['离散系数 (CV)'].apply(lambda x: f'{x:.2f}%')
desc_formatted_df.T
运行结果
销售额
销售额
count 8.0
mean 160.0
std 67.188434
min 90.0
25% 117.5
50% 140.0
75% 185.0
max 300.0
偏度 1.41676
峰度 2.174924
变异系数 41.99%
均值 160.0
中位数 140.0
众数 90.0
平均差 50.0
极差 210.0
四分位数 (117.5, 140.0, 185.0)
异众比率 0.875
标准误 23.754699
离散系数 (CV) 41.99%
📚二、常见概率分布
🚀(一)离散概率分布
🌟1、 伯努利分布(Bernoulli Distribution
)
-
定义与概率质量函数
在概率论和统计学中,伯努利分布是单次试验只有两种可能结果(成功或失败)的离散概率分布,其中成功的概率为 p p p,失败的概率为 1 − p 1-p 1−p。这样的单次成功/失败试验又称为伯努利试验。
一般地,如果随机变量 X X X 服从参数为 p p p 的伯努利分布,我们记为 X ∼ B e r n o u l l i ( p ) X \sim Bernoulli(p) X∼Bernoulli(p)。单次试验中正好得到成功的结果的概率由概率质量函数给出:
P ( X = x ) = { p , 如果 x = 1 1 − p , 如果 x = 0 P(X = x) = \begin{cases} p, & \text{如果 } x = 1 \\ 1 - p, & \text{如果 } x = 0 \end{cases} P(X=x)={p,1−p,如果 x=1如果 x=0 -
优点与缺点
优点:模型简单,易于理解和计算。
缺点:仅适用于二元结果的试验。 -
应用:抛硬币实验
抛硬币实验。假设硬币正面朝上的概率为0.5,反面朝上的概率也为0.5。则伯努利分布描述了每次抛硬币的结果。
🌟2、二项分布(Binomial Distribution
)
-
定义与概率质量函数
-
二项分布是 n n n 个独立的伯努利试验中成功的次数的离散概率分布,其中每次试验的成功概率为 p p p。
一般地,如果随机变量 X X X 服从参数为 n n n 和 p p p 的二项分布,我们记为 X ∼ B ( n , p ) X \sim B(n, p) X∼B(n,p) 或 X ∼ b ( n , p ) X \sim b(n, p) X∼b(n,p)。n 次试验中正好得到 k 次成功的概率由概率质量函数给出:
P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k} P(X=k)=(kn)pk(1−p)n−k
其中, n n n 是试验次数, k k k 是成功次数, p p p 是单次试验成功的概率, ( n k ) = n ! k ! ( n − k ) ! \binom{n}{k} = \frac{n!}{k!(n-k)!} (kn)=k!(n−k)!n!, k = 0 , 1 , 2 , … , n k = 0, 1, 2, \ldots, n k=0,1,2,…,n 是二项式系数。 -
优点与缺点
优点:能够描述多次独立试验的成功次数,应用广泛。
缺点:计算组合数时较为复杂。 -
应用:计算某批次产品中次品数量的概率分布
假设某工厂生产的产品次品率为0.1,一批次有10件产品,可以用二项分布计算其中恰好有2件次品的概率:
P ( X = 2 ) = ( 10 2 ) ( 0.1 ) 2 ( 0.9 ) 8 ≈ 0.1937 P(X = 2) = \binom{10}{2} (0.1)^2 (0.9)^8 \approx 0.1937 P(X=2)=(210)(0.1)2(0.9)8≈0.1937
🌟3、泊松分布(Poisson Distribution
)
-
定义与概率质量函数
泊松分布用于描述在固定时间间隔或空间内稀有事件发生次数的离散概率分布。
一般地,如果随机变量 X X X 服从参数为 λ \lambda λ 的泊松分布,我们记为 X ∼ P o i s s o n ( λ ) X \sim Poisson(\lambda) X∼Poisson(λ)。在固定时间间隔或空间内正好发生 k 次事件的概率由概率质量函数给出:
P { X = k } = λ k e − λ k ! P\{X=k\} = \frac{\lambda^k e^{-\lambda}}{k!} P{X=k}=k!λke−λ
式中 k = 0 , 1 , 2 , … k = 0, 1, 2, \ldots k=0,1,2,…, λ \lambda λ 是平均发生率。 -
优点与缺点
优点:能够描述稀有事件的发生次数,计算简单。
缺点:对数据的泊松假设要求较高。 -
应用
某呼叫中心每小时接到的电话数量。假设呼叫中心平均每小时接到5个电话,则泊松分布可以描述每小时接到电话数量的概率分布。
P ( X = 3 ) = 5 3 e − 5 3 ! ≈ 0.1404 P(X = 3) = \frac{5^3 e^{-5}}{3!} \approx 0.1404 P(X=3)=3!53e−5≈0.1404
🚀(二)连续概率分布
🌟1、正态分布(Normal Distribution
)
-
定义与概率密度函数
正态分布是连续随机变量最常见的分布形式,用于描述自然现象、社会现象等中大多数随机变量的分布。一般地,如果随机变量 X X X 服从参数为 μ \mu μ 和 σ 2 \sigma^2 σ2 的正态分布,我们记为 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) X∼N(μ,σ2)。其概率密度函数为:
f ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x - \mu)^2}{2\sigma^2}} f(x)=σ2π1e−2σ2(x−μ)2
其中, μ \mu μ 是均值, σ \sigma σ 是标准差。 -
优点与缺点
优点:正态分布具有良好的数学性质,应用广泛。
缺点:实际数据往往不完全符合正态分布。 -
应用:分析某地区居民身高分布
分析某地区居民身高分布。假设某地区居民身高服从均值为170cm、标准差为10cm的正态分布,则正态分布可以描述该地区居民身高的概率分布。
🌟2、均匀分布(Uniform Distribution
)
-
定义与概率密度函数
均匀分布是随机变量在某个区间内等概率分布的概率分布。一般地,如果随机变量 X X X 服从参数为 a a a 和 b b b 的均匀分布,我们记为 X ∼ U n i f o r m ( a , b ) X \sim Uniform(a, b) X∼Uniform(a,b)。其概率密度函数为:
f ( x ) = { 1 b − a , 如果 a ≤ x ≤ b 0 , 其他 f(x) = \begin{cases} \frac{1}{b - a}, & \text{如果 } a \leq x \leq b \\ 0, & \text{其他} \end{cases} f(x)={b−a1,0,如果 a≤x≤b其他
其中, a a a 和 b b b 是区间的上下界。 -
优点与缺点
优点:模型简单,易于理解和计算。
缺点:仅适用于完全随机的场景。 -
应用:随机生成的密码字符分布
随机生成的密码字符分布。假设密码字符从26个英文字母中随机选择,则每个字母出现的概率相同,服从均匀分布。
🌟3、指数分布(Exponential Distribution
)
- 定义与概率密度函数
指数分布用于描述事件发生的时间间隔的连续概率分布,特别适用于描述无记忆性的随机事件。
一般地,如果随机变量
X
X
X 服从参数为
λ
\lambda
λ 的指数分布,我们记为
X
∼
E
x
p
o
n
e
n
t
i
a
l
(
λ
)
X \sim Exponential(\lambda)
X∼Exponential(λ)。其概率密度函数为:
f
(
x
)
=
{
λ
e
−
λ
x
if
x
≥
0
0
otherwise
f(x) = \begin{cases} \lambda e^{-\lambda x} & \text{if } x \geq 0 \\ 0 & \text{otherwise} \end{cases}
f(x)={λe−λx0if x≥0otherwise
式中
λ
\lambda
λ 是发生率参数。
应用:某设备的故障时间分布
假设某设备的故障时间服从指数分布,平均故障时间为100小时,可以用指数分布计算设备在50小时内不发生故障的概率:
P
(
X
>
50
)
=
e
−
50
/
100
≈
0.6065
P(X > 50) = e^{-50/100} \approx 0.6065
P(X>50)=e−50/100≈0.6065
🌟4、t 分布(Student's t-Distribution
)
-
定义与概率密度函数
t 分布是一种用于估计正态分布总体的均值的连续概率分布,当样本量较小时尤为适用。它由威廉·戈塞特(笔名“Student”)在1908年发现,因此也称为“Student’s t-Distribution”。
t 分布的概率密度函数较为复杂,其形式为:
f ( t ) = Γ ( ν + 1 2 ) ν π Γ ( ν 2 ) ( 1 + t 2 ν ) − ν + 1 2 f(t) = \frac{\Gamma\left(\frac{\nu + 1}{2}\right)}{\sqrt{\nu \pi} \Gamma\left(\frac{\nu}{2}\right)} \left(1 + \frac{t^2}{\nu}\right)^{-\frac{\nu + 1}{2}} f(t)=νπΓ(2ν)Γ(2ν+1)(1+νt2)−2ν+1
其中, ν \nu ν 表示自由度, Γ \Gamma Γ 是伽马函数。 -
优点与缺点
优点:在小样本情况下对总体均值的推断非常有用,能够较好地处理不确定性。
缺点:计算较为复杂,且当样本量增大时逐渐趋近于正态分布,优势减弱。 -
应用:小样本均值推断
假设从一个正态分布的总体中抽取了一个样本量为10的样本,样本均值为50,样本标准差为5。我们可以使用t分布来构建总体均值的置信区间。
🌟5、拉普拉斯分布(Laplace Distribution
)
-
定义与概率密度函数
拉普拉斯分布是一种连续概率分布,具有尖峰和厚尾的特性,常用于信号处理和机器学习等领域以建模具有重尾现象的数据。
若随机变量 X X X服从位置参数为 μ \mu μ和尺度参数为 b b b的拉普拉斯分布,则其概率密度函数为:
f ( x ∣ μ , b ) = 1 2 b exp ( − ∣ x − μ ∣ b ) f(x|\mu, b) = \frac{1}{2b} \exp\left(-\frac{|x - \mu|}{b}\right) f(x∣μ,b)=2b1exp(−b∣x−μ∣)
其中, μ \mu μ为位置参数,决定了分布的中心位置; b b b为尺度参数,影响分布的离散程度。 -
优点与缺点
优点:能够较好地拟合具有重尾和尖峰特征的数据,灵活性较高。
缺点:计算和分析相对复杂,不如正态分布常用。 -
应用:信号去噪
在信号处理中,拉普拉斯分布常用于建模信号的稀疏性。例如,在图像去噪中,假设噪声服从拉普拉斯分布,通过最大似然估计等方法可以有效地估计并去除噪声。
🌟6、Logistic 分布(Logistic Distribution
)
-
定义与概率密度函数
Logistic 分布是一种连续概率分布,因其S形累积分布函数而闻名,广泛应用于逻辑回归、人口增长模型等领域。
其概率密度函数为:
f ( x ) = e − ( x − μ ) / s s ( 1 + e − ( x − μ ) / s ) 2 f(x) = \frac{e^{-(x - \mu)/s}}{s \left(1 + e^{-(x - \mu)/s}\right)^2} f(x)=s(1+e−(x−μ)/s)2e−(x−μ)/s
其中, μ \mu μ 是位置参数, s s s 是尺度参数。 -
优点与缺点
优点:具有简单的数学形式,便于计算和分析。
缺点:在某些情况下,其拟合效果可能不如其他分布。 -
应用:逻辑回归
在逻辑回归中,Logistic 分布的累积分布函数被用作链接函数,将线性组合的预测变量与二分类响应变量联系起来。例如,在医学研究中预测患者患病的概率。
🌟7、帕累托分布(Pareto Distribution
)
-
定义与概率密度函数
帕累托分布是一种用于描述社会、自然科学中多种现象的连续概率分布,尤其适用于建模重尾现象,如收入分配、财富分布等。
若随机变量 X X X服从帕累托分布,则其概率密度函数为:
f ( x ) = α m α x α + 1 f(x) = \frac{\alpha m^\alpha}{x^{\alpha + 1}} f(x)=xα+1αmα
其中, m m m 是尺度参数, α \alpha α 是形状参数,且 x ≥ m x \geq m x≥m。 -
优点与缺点
优点:能够很好地描述具有重尾特征的社会和自然现象。
缺点:对于某些特定场景,可能需要调整参数以获得更好的拟合效果。 -
应用:收入分配分析
在经济学中,帕累托分布常用于描述高收入人群的收入分配情况。例如,分析一个国家最富有的10%人口的收入分布。
🌟8、威布尔分布(Weibull Distribution
)
-
定义与概率密度函数
威布尔分布是一种连续概率分布,广泛应用于可靠性工程、寿命数据分析等领域,能够灵活地描述不同类型的故障率行为。
其概率密度函数为:
f ( x ) = k λ ( x λ ) k − 1 e − ( x / λ ) k f(x) = \frac{k}{\lambda} \left(\frac{x}{\lambda}\right)^{k - 1} e^{-(x/\lambda)^k} f(x)=λk(λx)k−1e−(x/λ)k
其中, λ \lambda λ 是尺度参数, k k k 是形状参数。 -
优点与缺点
优点:具有很强的灵活性,能够适应多种数据特征。
缺点:参数估计相对复杂,需要较多的数据进行准确估计。 -
应用:设备寿命分析
在可靠性工程中,威布尔分布用于建模设备的寿命数据。例如,分析一批电子产品的故障时间,以评估其可靠性。
🌟9、Beta 分布(Beta Distribution
)
-
定义与概率密度函数
Beta 分布是一种定义在区间[0, 1]上的连续概率分布,具有两个形状参数 α \alpha α和 β \beta β,常用于建模概率、比例等随机变量。
其概率密度函数为:
f ( x ) = x α − 1 ( 1 − x ) β − 1 B ( α , β ) f(x) = \frac{x^{\alpha - 1}(1 - x)^{\beta - 1}}{B(\alpha, \beta)} f(x)=B(α,β)xα−1(1−x)β−1
其中, B ( α , β ) B(\alpha, \beta) B(α,β) 是贝塔函数,作为归一化常数确保总积分等于1。 -
优点与缺点
优点:能够灵活地表示各种形状的分布,适用于建模概率和比例数据。
缺点:参数估计和解释相对复杂。 -
应用:贝叶斯统计
在贝叶斯统计中,Beta 分布常作为二项分布的共轭先验分布。例如,在估计一个硬币正面朝上的概率时,可以使用 Beta 分布作为先验。
🌟10、卡方分布(Chi-Squared Distribution
)
-
定义与概率密度函数
卡方分布是一种连续概率分布,是多个独立标准正态随机变量的平方和的分布,在假设检验和置信区间估计中具有重要地位。
若随机变量 X X X服从自由度为 k k k的卡方分布,则其概率密度函数为:
f ( x ) = 1 2 k / 2 Γ ( k / 2 ) x ( k / 2 − 1 ) e − x / 2 f(x) = \frac{1}{2^{k/2} \Gamma(k/2)} x^{(k/2 - 1)} e^{-x/2} f(x)=2k/2Γ(k/2)1x(k/2−1)e−x/2
其中, x ≥ 0 x \geq 0 x≥0, Γ \Gamma Γ 是伽马函数。 -
优点与缺点
优点:在统计推断中具有广泛的应用,特别是在检验方差和独立性方面。
缺点:计算较为复杂,尤其是在自由度较高时。 -
应用:独立性检验
在列联表分析中,卡方检验用于检验两个分类变量之间是否存在关联。例如,调查性别与偏好某种产品的关系。
🌟11、Gamma 分布(Gamma Distribution
)
-
定义与概率密度函数
Gamma 分布是一种连续概率分布,具有两个参数:形状参数 k k k和尺度参数 θ \theta θ,广泛应用于事件发生时间和强度的建模。
其概率密度函数为:
f ( x ) = x k − 1 e − x / θ θ k Γ ( k ) f(x) = \frac{x^{k - 1} e^{-x/\theta}}{\theta^k \Gamma(k)} f(x)=θkΓ(k)xk−1e−x/θ
其中, x ≥ 0 x \geq 0 x≥0, Γ ( k ) \Gamma(k) Γ(k) 是伽马函数。 -
优点与缺点
优点:具有很强的灵活性,能够适应多种数据分布特征。
缺点:参数估计和解释相对复杂。 -
应用:事件发生时间建模
在可靠性分析和生存分析中,Gamma 分布用于建模事件发生的时间。例如,分析患者在治疗后的存活时间。
📚三、描述统计量与概率分布的关系
🚀1、描述统计量在概率分布分析中的应用
描述统计量在概率分布分析中扮演着不可或缺的角色,它们为概率分布的参数估计与特性理解提供了有力的工具。通过计算样本的均值、方差、偏度等描述统计量,我们能够对数据的集中趋势、离散程度以及分布形状进行量化描述,进而为选择合适的概率分布模型奠定基础。例如,在金融风险评估中,利用样本数据计算出的均值和方差,可以估计资产收益率的正态分布参数,从而对投资风险进行建模与预测。
此外,描述统计量还有助于在实际问题中对不同概率分布进行比较与选择。当面对多个可能的概率分布假设时,通过比较各分布的理论描述统计量与样本描述统计量,可以筛选出与数据特征最为契合的概率分布,从而提高模型的准确性和可靠性。
🚀2、如何通过概率分布的参数计算描述统计量
概率分布的参数直接决定了其形状和特性,而描述统计量则是对这些特性的量化表达。
因此,我们可以通过概率分布的参数来计算相应的描述统计量,实现从理论模型到数据特征的转化。以正态分布为例,其均值μ和标准差σ就是其核心参数,直接对应于描述统计量中的均值和标准差。当我们确定了一个正态分布
N
(
μ
,
σ
2
)
N(μ,σ²)
N(μ,σ2),就等同于知道了该分布下数据的集中趋势和离散程度。
对于二项分布
B
(
n
,
p
)
B(n,p)
B(n,p),其均值为np,方差为
n
p
(
1
−
p
)
np(1-p)
np(1−p),这些描述统计量完全由试验次数n和成功概率p这两个参数决定。在实际应用中,当我们根据问题背景假设数据服从某一概率分布后,可以通过已知的分布参数直接计算出描述统计量,从而快速了解数据的大致特征,而无需进行复杂的样本计算。例如,在医学研究中,若某种疾病的发病次数服从泊松分布
P
o
i
s
s
o
n
(
λ
)
Poisson(λ)
Poisson(λ),其中λ表示平均发病次数,那么我们就可以直接利用λ来计算均值和方差,均为λ,进而对疾病的发生情况进行初步的统计描述。
对于其他概率分布,参数与描述统计量之间的关系同样明确。以指数分布为例,其参数为
λ
λ
λ,均值为
1
/
λ
1/λ
1/λ,方差为
1
/
λ
2
1/λ²
1/λ2。这意味着,如果我们知道某个指数分布的
λ
λ
λ值,就可以直接计算出该分布下数据的平均值和波动程度。
同样地,均匀分布
U
n
i
f
o
r
m
(
a
,
b
)
Uniform(a,b)
Uniform(a,b)的均值为
(
a
+
b
)
/
2
(a+b)/2
(a+b)/2,方差为
(
b
−
a
)
2
/
12
(b-a)²/12
(b−a)2/12,这些描述统计量完全由区间上下界
a
a
a和
b
b
b决定。在实际应用中,当我们根据问题的特性确定数据服从某种特定的概率分布后,只需代入相应的参数值,即可快速得到描述数据特征的统计量。这种基于概率分布参数的描述统计量计算方法,不仅简化了计算过程,还能够提供更为精确和可靠的统计描述,为后续的数据分析和决策支持提供坚实的理论依据。
📚参考文献
本文参考了多本统计学教材和在线资源,以确保内容的准确性和完整性。建议进一步查阅相关文献,深入了解统计学的理论和应用。