常用概率分布

WALL-SQ

于 2022-04-10 22:18:20 发布

阅读量4.8k

点赞数 3

分类专栏：机器学习文章标签：概率论

本文链接：https://blog.youkuaiyun.com/qq_39304630/article/details/123895835

版权

机器学习专栏收录该内容

7 篇文章

订阅专栏

1. 正态分布

1.1 介绍

由高斯推导出的分布，代表了现实中绝大部分情况下的运行状况。事实上，大量的随机变量都可以被证明是正态分布的。

若随机变量 $X$ 服从一个数学期望为 $\mu$ ，方差为 $\sigma ^2$ 的正态分布，记为 $N(\mu,\sigma^2)$ 。其概率密度函数为

$f(x|\mu ,\sigma)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

其中，当 $\mu=0,\sigma^2=1$ 时，称之为标准正态分布。

1.2 标准化

所有符合正态分布的随机变量X都可以通过标准化，变为符合标准正态分布的随机变量X‘。标准化过程的数学定义为：

$X'=(X-\mu)/\sigma$

1.3 正态分布理解举例

例：假设现在去贷款，银行会基于我们的财产情况估计一个可借贷款额度，这个我们可以当作是目标正态分布的均值，然后，不同的人可能估计出来的数值存在偏差，但是我们认为，这些人都有一定的专业知识，尽管存在偏差但偏差应该不大。

因此，我们实际生活中正态分布的图像呈现拱形，以上述例子来说，就是各个银行工作人员推定的可借贷额度绝大部分情况下都围绕着银行最终定下的可借贷额度左右波动。

而至于标准化，实际上可以理解为银行工作人员推定的可借贷额度与银行最终确定的可借贷额度之间的误差。

1.4 性质

正态分布 $N(\mu,\sigma)$ 的均值为 $\mu$ ，方差为 $\sigma^2$ 。

2. 二项式分布

1.1 介绍

先来看一个场景，现在要投N次篮，每次投篮之间是独立的，即上一次投篮的结果不会影响当前投篮的结果。

二项式分布就是n次只有两个可能结果(成功与失败)的实验里成功(或失败，因为成功次数+失败次数=n，成功m次等价于失败n-m次)的次数。

二项式分布有如下属性：

1.每个实验都是独立的

2.在实验中只有两个可能结果：成功与失败

3.共进行n次实验

4.n次实验中，保证所有实验成功的概率相同，失败的概率也相同，即保证每次实验相同

设随机变量X为n次实验中成功的次数，即X～B(n,p)，p为一次实验成功的概率，则有

$P(X=m)=C_n^mp^m(1-q)^{n-m}$

1.2 图像

1.3 性质

正态分布B(n,p)的均值为 $np$ ，方差为 $np(1-p)$ 。

3. 泊松分布

1.1 介绍

假设你是一个客服，一天里会接到多少电话呢？这可以用泊松分布建模的。

泊松分布适用于随机的时间和空间上某一个事件发生的次数。

当一下假设有效时，称为泊松分布：

1.任何一个成功的事件都不应该影响另一个成功的事件

2.在短时间内成功的概率必须与在更长的时间内该事件成功的概率相等

3.时间间隔很小时，在所给的间隔时间内成功的概率趋向于零

注：第二条通俗来说指的是，这个事件不能今天发生的概率是p，到了明天变成了q(p!=q)，第三条指的是当时间间隔变小时，就算事件本身发生的概率不变，但是因为事件变短，所以事件变得不容易发生。

举个例子，假设我们现在知道一小时内接到电话的概率是1/2，对每一个小时来说，接到电话的概率都应该是1/2；而现在假设我们把时间缩短为1分钟，哪怕一小时内接到电话的概率是1/2，但是1分钟内接到电话的概率是会变小的，时间间隔越短，发生的可能性越小。

1.2 介绍

泊松分布中使用了如下符号进行表示

$\lambda$ 是事件发生的速率

t是时间间隔长度，若 $\mu$ 表示时间长度为t的间隔中的平均事件数，则有 $\mu=\lambda*t$

X是该时间间隔内发生的事件数，X称为泊松随机变量，X的概率分布称为泊松分布

1.3 理解

在一个医院中，每个病人来看病都是随机并独立的概率，则该医院一天接收的总病人数可以看作是一个服从泊松分布的随机变量。

泊松分布的定义：假定一个事件在一段时间内随即发生，且符合以下条件

1.将该时间段无线分隔成若干个小的时间段，在这个接近于零的小时间段里，该事件发生一次的概率与这个极小时间段的长度成正比。

2.在每一个极小时间段内，该事件发生两次及以上的概率恒等于零

3.该事件在不同的小时间段里，发生与否是相互独立的

现在我们回过来看医院这个例子，我们可以把一天分成24小时，或者24*60分钟，或者24*3600秒，事件间隔分的越短，在这个时间间隔内有病人来的概率就越小。比如一小时内来病人的概率显然大于一秒内来病人的概率[符合条件1]。如果把时间分得很细，那么可以发现在如此小的时间间隔内同时来两个病人[或以上]的概率基本上就是不可能事件了，或者说就算来了，也不可能同时看病[符合条件2，这里不要过分纠结，我们可以简单认为只有一个诊疗室一名医生]。条件三则要求例子中来看病的人之间是独立的，即一个人来不来看病并不影响另一个人来不来看病，为了简化问题，我们常常会这么假设，毕竟就看病来说，我们不太认为大家偏向一起约定好了去医院看病。

$f(x|\lambda)=\frac{\lambda ^xe^{-\lambda}}{x!}$

1.4 例子

已知平均每小时出生3个婴儿，请问下一个小时会出生几个？

根据题意，对出生的婴儿数套用泊松分布，可知平均每小时出生3个婴儿指的是 $\lambda=3$ ，同时出生的婴儿数为n，因此一个小时出生3个婴儿的概率就可以表示为 $P(N(1)=3)$ 。

题目想问的是实际上是一个小时内生出来的婴儿数的期望，故解为

$E(x)=\sum_{i=0}^{\infty}P(N(1)=i)=\sum_{i=0}^{\infty}i*\frac{\lambda^ie^{-\lambda}}{i!}$

泊松分布的图像如下所示：

1.5 性质

泊松分布的均值为 $\lambda$ ，方差为 $\lambda$ 。

4. 均匀分布

1.1 介绍

均匀分是一种简单分布，比如掷骰子，掷到1-6中任何一个值的概率都是1/6。在连续性随机变量中，假设X服从(a-b)上的均匀分布，则X的概率密度函数可以表示为：

$f(x)=\frac{1}{b-a}, a<=x<=b$

1.2 图像

1.3 性质

均匀分布的均值为 $(b-a)/2$ ，方差为 $(b-a)^2/12$ 。

5.卡方分布

1.1 介绍

卡方分布通俗来说就是通过小样本的样本容量去预估总体容量的分布情况。

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度。

若n个相互独立的随机变量 $x_1,x_2,...,x_n$ 都服从于标准正态分布(独立同分布于标准正态分布)， $X=x_1^2+x_2^2+...+x_n^2$ ，则称 $X$ 服从卡方分布。

自由度：如果我们不加任何限制，那么所有的变量 $x_1,x_2,...,x_n$ 都可以任意取直，但如果现在我们加上限制，比如我们限制 $x_1,x_2,...,x_n$ j均值为0，那么当确定了前n-1个值时，第n个值也确定了，此时自由的变量只有n-1个。

1.2 图像

1.3 性质

卡方分布是由标准正态分布构建出的一个新分布，当自由度越大时，越接近正态分布。

假设卡方分布 $\chi (n)$ ，均值为n，方差为2n。

6.beta分布

1.1 介绍

beta分布可以看作时一个概率的概率分布，当不知道一个事件的具体概率时，beta分布可以给出所有概率出现的可能性大小。

以棒球为例，每一个棒球运动员都有自己的击球率，即可以用击中的次数/总击打次数得到。现在我们想要知道一个运动员的击球率，如果我们按照击中的次数/总击打次数来计算，假设当前只击打了一次并且击中了，根据公式计算出的击球率就是100%，这显然不合理。

现在假设我们有这个运动员之前的击球情况数据，假设历史情况下，该击球运动员的击球率数据在0.21-0.35，那么我们也应该推知，当前的击球率在很大概率下应该与历史数据偏差不太大。这些作为先验知识，接下来我们要做的就是将这些信息引入beta分布。假设我们知道一个运动员的之前的击球率是0.27左右，而范围就差不多为0.21-0.35，那么我们可以取 $\alpha=81,\beta=219$ (表示击中81次，未击中219次)。

1.2 图像

在用beta分布对实际问题进行建模时，我们可以基于历史数据和当前击球数来预估当前的击球概率分布情况，以这个例子为例，我们有的基数是 $\alpha=81,\beta=219$ ，现在假设该运动员又击打了一批球，假设击中了n个，没击中m个，于是分布就会变化为 $Beta(81+n, 219+m)$ 。