概率论与随机过程

原创于 2025-06-06 22:42:33 发布 · 729 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#概率论 #语音识别 #自然语言处理 #人工智能 #sqlite #语言模型

一、概率与分布

1.1 条件概率与独立事件

条件概率：已知事件发生的条件下发生的概率，记作，它等于事件的概率相对于事件的概率，即：。其中必须有。

条件概率分布的链式法则：对于个随机变量，有：
两个随机变量相互独立的数学描述：。记作：。
两个随机变量关于随机变量条件独立的数学描述：。

记作：。

1.2 联合概率分布

定义和的联合分布为：。
- 的分布可以从联合分布中得到：
- 的分布可以从联合分布中得到：
当和都是离散随机变量时，定义和的联合概率质量函数为：

则和的概率质量函数分布为：
当和联合地连续时，即存在函数，使得对于所有的实数集合和满足：

则函数称为和的概率密度函数。
- 联合分布为：。
- 和的分布函数以及概率密度函数分别为：
  
  .

二、期望和方差

2.1 期望

期望描述了随机变量的平均情况，衡量了随机变量的均值。它是概率分布的泛函（函数的函数）。
- 离散型随机变量的期望：。
  
  若右侧级数不收敛，则期望不存在。
- 连续性随机变量的期望：。
  
  若右侧极限不收敛，则期望不存在。
定理：对于随机变量，设也为随机变量，是连续函数。
- 若为离散型随机变量，若的期望存在，则：。
  
  也记做：。
- 若为连续型随机变量，若的期望存在，则：。
  
  也记做：。
该定理的意义在于：当求时，不必计算出的分布，只需要利用的分布即可。

该定理可以推广至两个或两个以上随机变量的情况。对于随机变量，假设也是随机变量，为连续函数，则有：。也记做：。

期望性质：
- 常数的期望就是常数本身。
- 对常数有：。
- 对两个随机变量，有：。
  
  该结论可以推广到任意有限个随机变量之和的情况。
- 对两个相互独立的随机变量，有：。
  
  该结论可以推广到任意有限个相互独立的随机变量之积的情况。

2.2 方差

对随机变量，若存在，则称它为的方差，记作。

的标准差为方差的开平方。即：
- 方差度量了随机变量与期望值偏离的程度，衡量了取值分散程度的一个尺度。
- 由于绝对值带有绝对值，不方便运算，因此采用平方来计算。
  
  又因为是一个随机变量，因此对它取期望，即得与期望值偏离的均值。
根据定义可知：
对于一个期望为，方差为的随机变量，随机变量的数学期望为0，方差为1。称为的标准化变量。
方差的性质：
- 常数的方差恒为 0 。
- 对常数，有。
- 对两个随机变量，有：
  
  当和相互独立时，有。这可以推广至任意有限多个相互独立的随机变量之和的情况。
- 的充要条件是以概率1取常数。

2.3 协方差与相关系数

对于二维随机变量，可以讨论描述与之间相互关系的数字特征。
- 定义为随机变量与的协方差，记作。
- 定义为随机变量与的相关系数，它是协方差的归一化。
由定义可知：
协方差的性质：
- ，为常数。
协方差的物理意义：
- 协方差的绝对值越大，说明两个随机变量都远离它们的均值。
- 协方差如果为正，则说明两个随机变量同时趋向于取较大的值或者同时趋向于取较小的值；如果为负，则说明一个随变量趋向于取较大的值，另一个随机变量趋向于取较小的值。
- 两个随机变量的独立性可以导出协方差为零。但是两个随机变量的协方差为零无法导出独立性。
  
  因为独立性也包括：没有非线性关系。有可能两个随机变量是非独立的，但是协方差为零。如：假设随机变量。定义随机变量的概率分布函数为：
  
  定义随机变量，则随机变量是非独立的，但是有：。
相关系数的物理意义：考虑以随机变量  的线性函数  来近似表示。以均方误差

来衡量以  近似表达  的好坏程度。  越小表示近似程度越高。

为求得最好的近似，则对  分别取偏导数，得到：

因此有以下定理：
- （是绝对值）。
- 的充要条件是：存在常数使得。
当较大时，较小，意味着随机变量和联系较紧密。于是是一个表征、之间线性关系紧密程度的量。
当时，称和不相关。
- 不相关是就线性关系来讲的，而相互独立是一般关系而言的。
- 相互独立一定不相关；不相关则未必独立。

2.4 协方差矩阵

设和是随机变量。
- 若存在，则称它为的阶原点矩，简称阶矩。
- 若存在，则称它为的阶中心矩。
- 若存在，则称它为和的阶混合矩。
- 若存在，则称它为和的阶混合中心矩。
因此：期望是一阶原点矩，方差是二阶中心矩，协方差是二阶混合中心矩。
协方差矩阵：
- 二维随机变量有四个二阶中心矩（假设他们都存在），记作：
  
  称矩阵
  
  为随机变量的协方差矩阵。
- 设  维随机变量  的二阶混合中心矩  都存在，则称矩阵
  
  为  维随机变量  的协方差矩阵。
  
  由于  因此协方差矩阵是个对称阵。
通常维随机变量的分布是不知道的，或者太复杂以致数学上不容易处理。因此实际中协方差矩阵非常重要。

三、大数定律及中心极限定理

3.1 切比雪夫不等式

切比雪夫不等式：假设随机变量具有期望，方差，则对于任意正数，下面的不等式成立：
- 其意义是：对于距离足够远的地方（距离大于等于），事件出现的概率是小于等于。即事件出现在区间的概率大于。
  
  该不等式给出了随机变量在分布未知的情况下，事件的下限估计。如：。
- 证明：
切比雪夫不等式的特殊情况：设随机变量  相互独立，且具有相同的数学期望和方差：。作前  个随机变量的算术平均：，则对于任意正数  有：

证明：根据期望和方差的性质有：，  。根据切比雪夫不等式有：

则有  ，因此有：。

3.2 大数定理

依概率收敛：设是一个随机变量序列，是一个常数。

若对于任意正数有：，则称序列依概率收敛于。记作：
依概率收敛的两个含义：
- 收敛：表明这是一个随机变量序列，而不是某个随机变量；且序列是无限长，而不是有限长。
- 依概率：表明序列无穷远处的随机变量的分布规律为：绝大部分分布于点，极少数位于之外。且分布于之外的事件发生的概率之和为0。
大数定理一：设随机变量相互独立，且具有相同的数学期望和方差：。则序列：依概率收敛于，即。

注意：这里并没有要求随机变量同分布。
伯努利大数定理：设为次独立重复实验中事件发生的次数，是事件在每次试验中发生的概率。则对于任意正数有：

即：当独立重复实验执行非常大的次数时，事件发生的频率逼近于它的概率。
辛钦定理：设随机变量相互独立，服从同一分布，且具有相同的数学期望：。则对于任意正数有：
- 注意：这里并没有要求随机变量的方差存在。
- 伯努利大数定理是亲钦定理的特殊情况。

3.3 中心极限定理

独立同分布的中心极限定理：设随机变量独立同分布，且具有数学期望和方差：，则随机变量之和的标准变化量：

的概率分布函数对于任意满足：
- 其物理意义为：均值方差为的独立同分布的随机变量之和的标准变化量，当充分大时，其分布近似于标准正态分布。
  
  即：在充分大时，其分布近似于。
- 一般情况下，很难求出个随机变量之和的分布函数。因此当充分大时，可以通过正态分布来做理论上的分析或者计算。
Liapunov 定理：设随机变量相互独立，具有数学期望和方差：。记：。若存在正数，使得当时，。则随机变量之和的标准变化量:

的概率分布函数对于任意满足：
- 其物理意义为：相互独立的随机变量之和的衍生随机变量序列，当充分大时，其分布近似与标准正态分布。
- 这里并不要求同分布。

Demoiver-Laplace定理：设随机变量序列服从参数为的二项分布，其中。则对于任意 , 有：

该定理表明，正态分布是二项分布的极限分布。当充分大时，可以利用正态分布来计算二项分布的概率。

五、常见概率分布

5.1 均匀分布

离散随机变量的均匀分布：假设有个取值：，则均匀分布的概率密度函数(probability mass function:PMF)为：
连续随机变量的均匀分布：假设在 [a,b]上均匀分布，则其概率密度函数(probability density function：PDF)为：

.

5.2 伯努利分布

伯努利分布：参数为。随机变量。
- 概率分布函数为：。
- 期望：。方差：。
categorical 分布：它是二项分布的推广，也称作multinoulli分布。假设随机变量，其概率分布函数为：

其中为参数，它满足，且。

5.3 二项分布

假设试验只有两种结果：成功的概率为，失败的概率为。则二项分布描述了：独立重复地进行次试验中，成功次的概率。
- 概率质量函数：
- 期望：。方差：。

5.4 高斯分布

正态分布是很多应用中的合理选择。如果某个随机变量取值范围是实数，且对它的概率分布一无所知，通常会假设它服从正态分布。有两个原因支持这一选择：
- 建模的任务的真实分布通常都确实接近正态分布。中心极限定理表明，多个独立随机变量的和近似正态分布。
- 在具有相同方差的所有可能的概率分布中，正态分布的熵最大（即不确定性最大）。

5.4.1 一维正态分布

正态分布的概率密度函数为 :

其中为常数。
- 若随机变量的概率密度函数如上所述，则称服从参数为的正态分布或者高斯分布，记作。
- 特别的，当时，称为标准正态分布，其概率密度函数记作，分布函数记作。
- 为了计算方便，有时也记作：，其中。
正态分布的概率密度函数性质：
- 曲线关于对称。
- 曲线在时取最大值。
- 曲线在处有拐点。
- 参数决定曲线的位置；决定图形的胖瘦。
若则：
- 期望：。方差：。
有限个相互独立的正态随机变量的线性组合仍然服从正态分布：若随机变量且它们相互独立，则它们的线性组合：仍然服从正态分布（其中不全是为 0 的常数），且：。