本文总结了概率论的一些基本知识。
概率分布
在解释各种分布之前,我们先看看常见的分布类型有哪些,分布类型可分为离散型和连续型。
离散型:数据只能取特定的值,比如,当你掷一个骰子的时候,可能的结果只有 1,2,3,4,5,6 而不会是 1.5 或者 2.45。
连续型:数据可以在给定的范围内取任何值,给定的范围可以是有限的或无限的,比如一个女孩的体重或者身高,或者道路的长度。一个女孩的体重可以是 54 kgs,54.5 kgs,或 54.5436kgs。
下图列出了常用的概率分布类型以及概率(密度)分布函数。
伯努利分布
一个伯努利分布只有两个可能的结果,记作 1(成功)和 0(失败),只有单次伯努利试验。设定一个具有伯努利分布的随机变量 X,取值为 1 即成功的概率为 p,取值为 0 即失败的概率为 q 或者 1-p。
期望值是指一个概率分布的平均值,对于随机变量 X,对应的期望值为:
实际上还有很多关于伯努利分布的例子,比如抛一次硬币的结果是正面还是反面,明天是晴天还是雨天,这场比赛中某一队输还是赢,等等。
二项分布
抛硬币的实验中,当抛完第一次,我们可以再抛一次,也就是存在多个伯努利试验。第一次为正不代表以后也会为正。那么设一个随机变量 X,它表示我们投掷为正面的次数。X 可能会取什么值呢?在投掷硬币的总次数范围内可以是任何非负整数。
如果存在一组相同的随机事件,即一组伯努利试验,在上例中为连续掷硬币多次。那么某随机事件出现的次数即概率服从于二项分布,也称为多重伯努利分布。
任何一次试验都是互相独立的,前一次试验不会影响当前试验的结果。两个结果概率相同的试验重复 n 次的试验称为多次伯努利试验。二项分布的参数为 n 和 p,n 是试验的总次数,p 是每一次试验的成功概率。
根据以上所述,一个二项分布的性质为:
- 每一次试验都是独立的;
- 只有两个可能的结果;
- 进行 n 次相同的试验;
- 所有试验中成功率都是相同的,失败的概率也是相同的。
二项分布的平均值表示为
泊松分布
泊松分布适用于事件发生的时间和地点随机分布的情况,其中我们只对事件的发生次数感兴趣。泊松分布的主要特点为如下:
- 任何一个成功事件不能影响其它的成功事件;
- 经过短时间间隔的成功概率必须等于经过长时间间隔的成功概率;
- 时间间隔趋向于无穷小的时候,一个时间间隔内的成功概率趋近零。
在泊松分布中定义的符号有:
λ是事件的发生率;
t 是事件间隔的长度;
X 是在一个时间间隔内的事件发生次数。
设 X 是一个泊松随机变量,那么 X 的概率分布称为泊松分布。以µ表示一个时间间隔 t 内平均事件发生的次数,则
方差:
几个例子:
- 一天内医院接到的紧急呼叫次数;
- 一天内地方接到的偷窃事件报告次数;
- 一小时内光顾沙龙的人数;
- 一个特定城市里报告的自杀人数;
- 书的每一页的印刷错误次数。
均匀分布
假设我们在从 a 到 b 的一段线段上等距地选择一个区间的概率是相等的,那么概率在整个区间 [a,b] 上是均匀分布的,概率密度函数也不会随着变量的更改而更改。均匀分布和伯努利分布不同,随机变量的取值都是等概率的,因此概率密度就可以表达为区间长度分之一,如果我们取随机变量一半的可能值,那么其出现的概率就为 1/2。它的均值为
指数分布
现在再次考虑电话中心案例,那么电话间隔的分布是怎么样的呢?这个分布可能就是指数分布,因为指数分布可以对电话的时间间隔进行建模。其它案例可能还有地铁到达时间的建模和空调设备周期等。
随机变量 X 服从于指数分布,则该变量的均值可表示为

正态分布(高斯分布)
实数上最常用的分布就是正态分布(normal distribution),也称为高斯分布(Gaussian distribution)。因为该分布的普遍性,尤其是中心极限定理的推广,一般叠加很多较小的随机变量都可以拟合为正态分布。正态分布主要有以下几个特点:
- 所有的变量服从同一均值、方差和分布模式。
- 分布曲线为钟型,并且沿 x=μ对称。
- 曲线下面积的和为 1。
- 该分布左半边的精确值等于右半边。
正态分布和伯努利分布有很大的不同,然而当伯努利试验的次数接近于无穷大时,他们的分布函数基本上是相等的。
若随机变量 X 服从于正态分布,那么 X 的概率密度可以表示为:
随机变量 X 的均值可表示为
随机变量 X 服从于正态分布 N(µ,σ),可以表示为:
标准正态分布可以定义为均值为 0、方差为 1 的分布函数,以下展示了标准正态分布的概率密度函数和分布图:
分布之间的关系
伯努利分布和二项分布的关系
- 二项分布是伯努利分布的单次试验的特例,即单词伯努利试验;
- 二项分布和伯努利分布的每次试验都只有两个可能的结果;
- 二项分布每次试验都是互相独立的,每一次试验都可以看作一个伯努利分布。
泊松分布和二项分布的关系
以下条件下,泊松分布是二项分布的极限形式:
1. 试验次数非常大或者趋近无穷,即 n → ∞;
2. 每次试验的成功概率相同且趋近零,即 p →0;
3.np =λ 是有限值。
正态分布和二项分布的关系 & 正态分布和泊松分布的关系
以下条件下,正态分布是二项分布的一种极限形式:
1. 试验次数非常大或者趋近无穷,即 n → ∞;
2.p 和 q 都不是无穷小。
参数 λ →∞的时候,正态分布是泊松分布的极限形式。
指数分布和泊松分布的关系
如果随机事件的时间间隔服从参数为 λ的指数分布,那么在时间周期 t 内事件发生的总次数服从泊松分布,相应的参数为 λt。