泊松分布的原理和应用

本文介绍泊松分布,及其推导原理。

Ref: 泊松分布

泊松分布的分布律如下:
P ( X = k ) = λ k e − λ k ! , k = 0 , 1 , 2 , … P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \dots P(X=k)=k!λkeλ,k=0,1,2,
其中:

  • X ∼ Poisson ( λ ) X \sim \text{Poisson}(\lambda) XPoisson(λ)
  • λ \lambda λ 是单位时间或单位空间内事件发生的平均次数, λ \lambda λ > 0
  • e 是自然对数的底数(约等于 2.71828)

问题:那么如何理解该分布呢,如何跟实际场景结合?

首先我们先验证一下是否所有概率之和是否等于 1。

已知幂级数展开公式:
e x = ∑ k = 0 ∞ x k k ! e^x = \sum_{k=0}^{\infty}\frac{x^k}{k!} ex=k=0k!xk
可得:
∑ k = 0 ∞ λ k e − λ k ! = e − λ e λ = 1 \sum_{k=0}^{\infty}\frac{\lambda^k e^{-\lambda}}{k!}=e^{-\lambda}e^{\lambda}=1 k=0k!λkeλ=eλeλ=1

问题: λ \lambda λ和二项分布中的 n,p 有什么关系?

泊松定理 n n n 重伯努利试验中,试验次数 n n n 足够大,每次试验中事件发生的概率 p p p 很小,事件发生的次数 X ∼ b ( n , p ) X \sim b(n, p) Xb(n,p),则 X 近似服从参数 λ = n p \lambda=np λ=np 的泊松分布。

为了更好地理解,我们先看二项分布:
X ∼ b ( n , p ) X \sim b(n, p) Xb(n,p)
P { X = k } = ( n k ) p k ( 1 − p ) n − k ≈ λ k e − λ k ! , 其中 λ = n p P\{X = k\} = \binom{n}{k} p^k (1 - p)^{n - k} \approx \frac{\lambda^k e^{-\lambda}}{k!}, 其中 \lambda = np P{X=k}=(kn)pk(1p)nkk!λkeλ,其中λ=np

推导过程:(n 趋近于无穷大)
P { X = k } = ( n k ) p k ( 1 − p ) n − k = n ( n − 1 ) . . . ( n − k + 1 ) k ! ⋅ ( λ n ) k ⋅ ( 1 − λ n ) n − k = λ k k ! ⋅ n ⋅ ( n − 1 ) ⋯ ( n − k + 1 ) n ⋅ n ⋯ n ⋅ ( 1 − λ n ) − k ⋅ ( 1 − λ n ) n = λ k k ! ⋅ ( 1 − 1 n ) ⋅ ( 1 − 2 n ) ⋯ ( 1 − k − 1 n ) ⋅ ( 1 − λ n ) − k ⋅ ( 1 − λ n ) n = λ k k ! ⋅ lim ⁡ n → ∞ ( 1 − λ n ) n = λ k k ! ⋅ e − λ \begin{aligned} P\{X = k\} &= \binom{n}{k} p^k (1 - p)^{n - k} \\ &=\frac{n(n-1)...(n-k+1)}{k!} \cdot (\frac{\lambda}{n})^k \cdot (1-\frac{\lambda}{n})^{n-k} \\ &=\frac{\lambda^k}{k!} \cdot \frac{n \cdot (n-1) \cdots (n-k+1)}{n \cdot n\cdots n} \cdot (1-\frac{\lambda}{n})^{-k} \cdot (1- \frac{\lambda}{n})^n \\ &=\frac{\lambda^k}{k!} \cdot (1-\frac{1}{n}) \cdot (1-\frac{2}{n}) \cdots (1-\frac{k-1}{n}) \cdot (1-\frac{\lambda}{n})^{-k} \cdot (1- \frac{\lambda}{n})^n \\ &=\frac{\lambda^k}{k!} \cdot \displaystyle \lim_{n \to \infty}(1-{\frac{\lambda}{n}})^n \\ &=\frac{\lambda^k}{k!} \cdot e^{-\lambda} \end{aligned} P{X=k}=(kn)pk(1p)nk=k!n(n1)...(nk+1)(nλ)k(1nλ)nk=k!λknnnn(n1)(nk+1)(1nλ)k(1nλ)n=k!λk(1n1)(1n2)(1nk1)(1nλ)k(1nλ)n=k!λknlim(1nλ)n=k!λkeλ

有上述推导可以知道泊松分布与二项分布的关系.

问题:能否以具体的实际例子来阐述推导过程?

举个栗子
某平台线上客服,平均一分钟有 4 条咨询( λ = 4 \lambda=4 λ=4)。

虽然知道平均次数,但每分钟记录一次,那到底有多少次咨询呢,此时次数自然是个随机变量 X X X。那这个随机变量 X X X 的分布具体是怎样呢

考虑每个时段的概率相同,则有:
若每 10 秒记录一次(n=6),每个10秒有咨询的概率(p= 4 6 \frac{4}{6} 64)

一分钟内的咨询数: X ∼ b ( 6 , 4 6 ) X \sim b(6, \frac{4}{6}) Xb(6,64).

则随机变量 X 的分布律为:
P { X = k } = ( 6 k ) ⋅ ( 4 6 ) k ⋅ ( 2 6 ) 6 − k , 其中 k = 0 , 1 , ⋯   , 6 P\{X=k\} = \binom{6}{k} \cdot (\frac{4}{6})^k \cdot (\frac{2}{6})^{6-k}, 其中 k=0,1,\cdots,6 P{X=k}=(k6)(64)k(62)6k,其中k=0,1,,6

问题:最多咨询6次是不是太少了?每10秒记录一次是不是不合理呢?

增加试验次数,若每 1 秒记录一次(n=60)
X ∼ b ( 60 , 4 60 ) X \sim b(60, \frac{4}{60}) Xb(60,604)

即使是每1秒记录一次,也会觉得不够细,继续增加记录次数,
若每 1/60 秒记录一次(n=3600)
X ∼ b ( 3600 , 4 3600 ) X \sim b(3600, \frac{4}{3600}) Xb(3600,36004)

可以发现,随着记录次数的增加,分布律也逐步逼近,不再发生太大的变化了。

为了保证每个时间段只有 “0或1”,(0表示没有咨询,1表示有1次咨询)

只要我们时间段分割的足够小,每个时间段就要么是 0次咨询,要么是1次咨询。不会出现2 或者更多的咨询(因为时间段足够小)。

上述描述对应的数学表达式:
lim ⁡ n → ∞ ( n k ) ⋅ p k ⋅ ( 1 − p ) n − k = λ k ⋅ e − λ k ! \lim_{n \to \infty} \binom{n}{k} \cdot p^k \cdot (1-p)^{n-k} = \frac{\lambda^k \cdot e^{-\lambda}}{k!} nlim(kn)pk(1p)nk=k!λkeλ
其中, λ = n p \lambda=np λ=np p = λ n p=\frac{\lambda}{n} p=nλ.

总结:

  • 在一段时间里发生频数相对固定
  • 单位时间内发生的概率较小
  • 在一段时间内的平均发生次数和时间长度成正比

相关举例:服务器一秒内接收到的访问请求次数;美国西部一周内发生的地震次数;放射性材料在24小时内放射出来的 α \alpha α粒子数

至此结束。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值