泊松分布的来源—公式推导—应用

本文从二项分布出发,推导出了泊松分布,并详细解释了其数学原理。此外,还介绍了泊松分布的实际应用场景,包括但不限于候车人数预测、服务请求次数统计等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

转载请注明http://blog.youkuaiyun.com/ningyaliuhebei/article/details/46409215

一。泊松分布由二项分布引出(二者都是离散型随机变量

首先必须由二项分布引出:

如果做一件事情成功的概率是 p 的话,那么独立尝试做这件事情 n 次,成功次数的分布就符合二项分布。展开来说,在做的 n 次中,成功次数有可能是 0 次、1 次 …… n次。成功 i 次的概率是:

( n 中选出 i 项的组合数) * p ^ i * (1-p)^ (n-i)

以上公式很容易推导,用一点概率学最基本的知识就够了。因为每一特定事件成功的概率是 p ,不成功的概率是 1-p 。i 次成功的事件可以任意分布在总共的 n 次尝试中。把它们乘起来就是恰好成功 i 次的概率。

当我们把二项分布推而广之后,就可以得到波松分布。

可以这样考虑,在一个特定时间内,某件事情会在任意时刻随机发生(前提是,每次发生都是独立的,且跟时间无关)。当我们把这个时间段分成非常小的时间片构成时,可以认为,每个时间片内,该事件可能发生,也可能不发生。几乎可以不考虑发生多于一次的情况(因为时间片可被分的足够小)。

当时间片分的越小,该时间片内发生这个事件的概率 p 就会成正比的减少。即:特定时间段被分成的时间片数量 n 与每个时间片内事件发生的概率 p 的乘积 n*p 为一个常数。这个常数表示了该事件在指定时间段发生的频度。

回过头来再来看这段时间内,指定事件恰好发生 i 次的概率是多少?代入上面推导出来的公式得到:

n * (n-1)... (n-i+1) / i! * p^i * (1-p) ^ (n-i) => np(np-p)...(np-ip+p) / i! * ((1-p) ^ (-1/p))^(-np) / (1-p) ^i

当 n 趋向无穷大时,p 趋向 0 。而此时 (1-p)^(-1/p) 趋向 e 。注:详细推导过程如下

上面这个公式可以划简为 lamda ^ i / i! * e ^ - lamda (lamda=n*p)

这个公式推导过程不复杂,耐心点一看就明白。而这个关于 i 的分布就是著名的泊松分布了。

二。泊松分布的应用:

首先泊松分布只能用来计算次数,例如汽车站候车人数就符合泊松分布,第一个人候车与第二个人后车没有关系,就像二项分布的独立重复试验一样。见图,

理解二项分布与泊松分布的关系


在推算某些特殊事件在一段时间内可能发生次数的时候经常会用到泊松分布。

泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数等等。

出自:http://www.360doc.com/content/14/0110/18/15459877_344179498.shtml

机器学习中的应用:

LDA的标准过程中单词出现的次数一般是由泊松分布来产生的。


<think>嗯,用户想要查找统计学常用公式的汇总。首先,我需要回忆统计学中的核心概念和对应的公式,确保覆盖描述统计、概率分布、假设检验、回归分析等部分。 首先,描述统计部分,平均数、方差、标准差这些基础公式是必须的。然后概率分布,比如正态分布、二项分布公式。假设检验部分,Z检验、t检验的公式,还有p值的概念。回归分析中的线性回归方程、相关系数R²这些也不能少。 接下来要考虑用户的潜在需求。他们可能是学生或者刚入行的数据分析师,需要这些公式来复习或应用在实际工作中。因此,除了列出公式,最好给出每个公式的简要说明,帮助理解应用场景。 还要注意LaTeX格式的正确性,根据用户的要求,行内公式用$...$,独立公式用$$...$$。比如方差公式应该用独立公式,单独成行。同时,检查每个公式的语法是否正确,比如积分符号、上下标等。 用户还要求生成相关问题,这些问题应该围绕统计学的应用公式推导、实际例子等方面。比如如何应用中心极限定理,或者假设检验的步骤,这样可以帮助用户深化理解。 另外,引用标识需要自然地添加在引用的段落末尾。比如在提到中心极限定理时,加上引用标记[^1],但用户提供的示例中没有具体的引用来源,可能需要假设存在相关的参考文献,或者提示用户引用需要补充。 最后,保持回答结构清晰,分点列出,每个部分有明确的标题,如描述统计、概率分布等,方便用户快速查找。同时,语言要简洁明了,避免过于专业的术语,必要时给出解释,确保用户容易理解。</think># 统计学常用公式汇总 ## 一、描述统计 1. **样本均值**:$$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$$ 2. **样本方差**:$$s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$$ 3. **标准差**:$$s = \sqrt{s^2}$$ 4. **协方差**:$$\text{Cov}(X,Y) = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})$$ 5. **皮尔逊相关系数**:$$r = \frac{\text{Cov}(X,Y)}{s_X s_Y}$$ [^1] ## 二、概率分布 1. **正态分布**:$$f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$ 2. **二项分布**:$$P(X=k) = C(n,k) p^k (1-p)^{n-k}$$ 3. **泊松分布**:$$P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!}$$ ## 三、假设检验 1. **Z检验统计量**:$$Z = \frac{\bar{x} - \mu}{\sigma/\sqrt{n}}$$ 2. **t检验统计量**:$$t = \frac{\bar{x} - \mu}{s/\sqrt{n}}$$ 3. **卡方检验统计量**:$$\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$$ ## 四、回归分析 1. **线性回归方程**:$$\hat{y} = \beta_0 + \beta_1 x$$ 2. **最小二乘法估计系数**:$$\beta_1 = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}$$ 3. **决定系数$R^2$**:$$R^2 = 1 - \frac{\text{SSE}}{\text{SST}}$$ ## 五、中心极限定理 当样本量$n$足够大时,样本均值的分布近似正态分布,均值为$\mu$,方差为$\sigma^2/n$[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值