本文介绍泊松分布,及其推导原理。
Ref: 泊松分布
泊松分布的分布律如下:
P
(
X
=
k
)
=
λ
k
e
−
λ
k
!
,
k
=
0
,
1
,
2
,
…
P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \dots
P(X=k)=k!λke−λ,k=0,1,2,…
其中:
- X ∼ Poisson ( λ ) X \sim \text{Poisson}(\lambda) X∼Poisson(λ)
- λ \lambda λ 是单位时间或单位空间内事件发生的平均次数, λ \lambda λ > 0
- e 是自然对数的底数(约等于 2.71828)
问题:那么如何理解该分布呢,如何跟实际场景结合?
首先我们先验证一下是否所有概率之和是否等于 1。
已知幂级数展开公式:
e
x
=
∑
k
=
0
∞
x
k
k
!
e^x = \sum_{k=0}^{\infty}\frac{x^k}{k!}
ex=k=0∑∞k!xk
可得:
∑
k
=
0
∞
λ
k
e
−
λ
k
!
=
e
−
λ
e
λ
=
1
\sum_{k=0}^{\infty}\frac{\lambda^k e^{-\lambda}}{k!}=e^{-\lambda}e^{\lambda}=1
k=0∑∞k!λke−λ=e−λeλ=1
问题: λ \lambda λ和二项分布中的 n,p 有什么关系?
泊松定理 n n n 重伯努利试验中,试验次数 n n n 足够大,每次试验中事件发生的概率 p p p 很小,事件发生的次数 X ∼ b ( n , p ) X \sim b(n, p) X∼b(n,p),则 X 近似服从参数 λ = n p \lambda=np λ=np 的泊松分布。
为了更好地理解,我们先看二项分布:
X
∼
b
(
n
,
p
)
X \sim b(n, p)
X∼b(n,p)
P
{
X
=
k
}
=
(
n
k
)
p
k
(
1
−
p
)
n
−
k
≈
λ
k
e
−
λ
k
!
,
其中
λ
=
n
p
P\{X = k\} = \binom{n}{k} p^k (1 - p)^{n - k} \approx \frac{\lambda^k e^{-\lambda}}{k!}, 其中 \lambda = np
P{X=k}=(kn)pk(1−p)n−k≈k!λke−λ,其中λ=np
推导过程:(n 趋近于无穷大)
P
{
X
=
k
}
=
(
n
k
)
p
k
(
1
−
p
)
n
−
k
=
n
(
n
−
1
)
.
.
.
(
n
−
k
+
1
)
k
!
⋅
(
λ
n
)
k
⋅
(
1
−
λ
n
)
n
−
k
=
λ
k
k
!
⋅
n
⋅
(
n
−
1
)
⋯
(
n
−
k
+
1
)
n
⋅
n
⋯
n
⋅
(
1
−
λ
n
)
−
k
⋅
(
1
−
λ
n
)
n
=
λ
k
k
!
⋅
(
1
−
1
n
)
⋅
(
1
−
2
n
)
⋯
(
1
−
k
−
1
n
)
⋅
(
1
−
λ
n
)
−
k
⋅
(
1
−
λ
n
)
n
=
λ
k
k
!
⋅
lim
n
→
∞
(
1
−
λ
n
)
n
=
λ
k
k
!
⋅
e
−
λ
\begin{aligned} P\{X = k\} &= \binom{n}{k} p^k (1 - p)^{n - k} \\ &=\frac{n(n-1)...(n-k+1)}{k!} \cdot (\frac{\lambda}{n})^k \cdot (1-\frac{\lambda}{n})^{n-k} \\ &=\frac{\lambda^k}{k!} \cdot \frac{n \cdot (n-1) \cdots (n-k+1)}{n \cdot n\cdots n} \cdot (1-\frac{\lambda}{n})^{-k} \cdot (1- \frac{\lambda}{n})^n \\ &=\frac{\lambda^k}{k!} \cdot (1-\frac{1}{n}) \cdot (1-\frac{2}{n}) \cdots (1-\frac{k-1}{n}) \cdot (1-\frac{\lambda}{n})^{-k} \cdot (1- \frac{\lambda}{n})^n \\ &=\frac{\lambda^k}{k!} \cdot \displaystyle \lim_{n \to \infty}(1-{\frac{\lambda}{n}})^n \\ &=\frac{\lambda^k}{k!} \cdot e^{-\lambda} \end{aligned}
P{X=k}=(kn)pk(1−p)n−k=k!n(n−1)...(n−k+1)⋅(nλ)k⋅(1−nλ)n−k=k!λk⋅n⋅n⋯nn⋅(n−1)⋯(n−k+1)⋅(1−nλ)−k⋅(1−nλ)n=k!λk⋅(1−n1)⋅(1−n2)⋯(1−nk−1)⋅(1−nλ)−k⋅(1−nλ)n=k!λk⋅n→∞lim(1−nλ)n=k!λk⋅e−λ
有上述推导可以知道泊松分布与二项分布的关系.
问题:能否以具体的实际例子来阐述推导过程?
举个栗子:
某平台线上客服,平均一分钟有 4 条咨询(
λ
=
4
\lambda=4
λ=4)。
虽然知道平均次数,但每分钟记录一次,那到底有多少次咨询呢,此时次数自然是个随机变量 X X X。那这个随机变量 X X X 的分布具体是怎样呢
考虑每个时段的概率相同,则有:
若每 10 秒记录一次(n=6),每个10秒有咨询的概率(p=
4
6
\frac{4}{6}
64)
一分钟内的咨询数: X ∼ b ( 6 , 4 6 ) X \sim b(6, \frac{4}{6}) X∼b(6,64).
则随机变量 X 的分布律为:
P
{
X
=
k
}
=
(
6
k
)
⋅
(
4
6
)
k
⋅
(
2
6
)
6
−
k
,
其中
k
=
0
,
1
,
⋯
,
6
P\{X=k\} = \binom{6}{k} \cdot (\frac{4}{6})^k \cdot (\frac{2}{6})^{6-k}, 其中 k=0,1,\cdots,6
P{X=k}=(k6)⋅(64)k⋅(62)6−k,其中k=0,1,⋯,6

问题:最多咨询6次是不是太少了?每10秒记录一次是不是不合理呢?
增加试验次数,若每 1 秒记录一次(n=60)
X
∼
b
(
60
,
4
60
)
X \sim b(60, \frac{4}{60})
X∼b(60,604)
即使是每1秒记录一次,也会觉得不够细,继续增加记录次数,
若每 1/60 秒记录一次(n=3600)
X
∼
b
(
3600
,
4
3600
)
X \sim b(3600, \frac{4}{3600})
X∼b(3600,36004)
可以发现,随着记录次数的增加,分布律也逐步逼近,不再发生太大的变化了。
为了保证每个时间段只有 “0或1”,(0表示没有咨询,1表示有1次咨询)
只要我们时间段分割的足够小,每个时间段就要么是 0次咨询,要么是1次咨询。不会出现2 或者更多的咨询(因为时间段足够小)。
上述描述对应的数学表达式:
lim
n
→
∞
(
n
k
)
⋅
p
k
⋅
(
1
−
p
)
n
−
k
=
λ
k
⋅
e
−
λ
k
!
\lim_{n \to \infty} \binom{n}{k} \cdot p^k \cdot (1-p)^{n-k} = \frac{\lambda^k \cdot e^{-\lambda}}{k!}
n→∞lim(kn)⋅pk⋅(1−p)n−k=k!λk⋅e−λ
其中,
λ
=
n
p
\lambda=np
λ=np 或
p
=
λ
n
p=\frac{\lambda}{n}
p=nλ.
总结:
- 在一段时间里发生频数相对固定
- 单位时间内发生的概率较小
- 在一段时间内的平均发生次数和时间长度成正比
相关举例:服务器一秒内接收到的访问请求次数;美国西部一周内发生的地震次数;放射性材料在24小时内放射出来的 α \alpha α粒子数
至此结束。