一、数据分布是什么?
1.指数分布
描述了事件发生的时间间隔的概率分布。当一个事件发生的概率与时间无关,且事件之间相互独立时,事件的发生服从指数分布。
(2)指数分布典型案例
呼叫中心的来电间隔时间,设备的无故障工作时间,放射性元素的衰变时间
与指数分布相关的著名的二八法则/帕累托法则,它描述了一种关键少数和无关多数的现象。
例如:一个企业80%的利润可能来自于20%的顾客,80%的财富被20%的人口所拥有,20%的员工可能完成80%的工作。
在市场营销、质量管理、人力资源管理多用二八法则。
2.正态分布/高斯分布
特点:其概率密度函数呈现钟形曲线/高斯曲线,关于均值对称,曲线下总面积为1,曲线形状由均值μ和标准差σ决定。均值决定了曲线位置,标准差决定了曲线形状。σ越大,曲线越矮胖;越小曲线越高瘦。
集中趋势:正态分布中,数据集中分布在均值附近。距离均值越远,数据出现的概率越小。
经验法则:约68%的数据包含于区间(μ-σ,μ+σ)
约95%的数据包含于区间(μ-2σ,μ+2σ)
约99.7%的数据包含于区间(μ-3σ,μ+3σ)
独立性和可加性:多个相互独立的正态分布变量之和仍然服从正态分布,且新的均值和方差分别是原均值之和、原方差之和。
中心极限定理:当样本量足够大时(通常>30),来自任意总体的样本均