统计思维(实例3)——分布建模

本文探讨了经验分布和分析分布,通过指数、正态、对数正态和Pareto分布的实例分析了分布建模。指数分布常用于描述事件发生时间间隔,正态分布广泛应用于数据建模,对数正态分布适用于一些社会经济数据,Pareto分布则能描述某些社会现象或自然现象的尾部分布。通过对不同分布的CDF和CCDF的讨论,阐述了如何判断一个数据集是否符合特定的分析分布。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前面我们使用的分布都是基于有限样本的经验观察,因此称为经验分布(empirical distribution)。在经验分布之外还有分析分布(analytic distribution),分析分布的CDF(累积分布函数)是一个数学函数,分析分布可以用作经验分布的建模。

指数分布

指数分布的CDF为:

CDF(x) = 1 - e^{-\lambda x}CDF(x)=1eλx

参数\lambdaλ决定了分布的形状。下图展示了当\lambdaλ=0.5、1和2时CDF的形状。 image


图1 不同参数的指数分布的CDF

现实世界中,如果我们观察一系列事件,对事件发生的时间间隔,即到达间隔(interarrival time)进行测量,可能会得到指数分布。

举例说明,我们看看婴儿出生的到达时间间隔。1997年12月18日,澳大利亚布里斯班的一家医院有44个婴儿出生,当地报纸报道了这些婴儿的出生时间。下图展示出生间隔的CDF。

image
图2 出生间隔CDF

如果认为一个数据集是指数分布,那么绘制其CDF补函数时,预期看到的函数将是:

y \approx e^{-\lambda x}yeλx

两边取对数,得到:

logy \approx -\lambda xlogyλx

下图展示婴儿出生间隔的CDF补函数: image


图3 出生间隔以log-y为纵轴的CDF

上图中的线不是很直,说明指数分布并不是这组数据的完美模型。参数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值