概率论基础

原创于 2024-10-11 19:49:10 发布 · 1.8k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#概率论

1.随机变量及其分布

1.定义

随机变量是一个从样本空间（所有可能结果的集合）到实数集的函数。样本空间中的每个结果都对应于随机变量的一个值。随机变量的值可以是离散的，也可以是连续的。随机变量通常用大写字母表示，如 X、Y 或 Z。

随机变量和事件的联系

定义事件：

事件可以定义为随机变量取特定值的集合。一般用{X=?}表示。

例如，如果随机变量 X 表示掷骰子的结果，那么事件 "掷得奇数" 可以表示为 {X=1} 或 {X=3}或 {X=5}。

使用随机变量描述事件

随机变量的值可以定义复杂的事件。

例如，事件 "掷骰子的结果大于4" 可以表示为 {X>4}，其中 X 是随机变量。

例如，掷硬币的结果为正面、反面，在数学中不方便描述，可以将正面映射为数字1，反面映射为0，那么事件"掷出正面"可以表示为{X=1}，事件"掷出反面"可以表示为{X=0}。

概率分布

随机变量的概率分布描述了它取每个可能值的概率。这个分布可以用来计算事件的概率。在随机变量表示的事件前加上P来表示：P{X=?}或者P(X=?)。

例如，随机变量 X 的概率质量函数（PMF）或概率密度函数（PDF）可以用来计算 P(X=k) 或 P(a<X<b)。

2.离散型随机变量及其概率分布

1.特点

可数性：随机变量的取值是可数的，即有限个或可数无限个。
离散性：取值之间有“间隔”，不是连续变化的。
概率分布：每个取值都有一个特定的概率，且所有取值的概率之和等于1。

2.离散型随机变量的概率分布

离散型随机变量的概率分布通常由概率质量函数（Probability Mass Function, PMF）描述。PMF 定义了随机变量每个可能取值的概率。

3.概率质量函数（PMF）

对于离散型随机变量 X，其概率质量函数为

$P(X=x)$

其中 x* 是 X 可能取的值。PMF 满足以下条件：

非负性：对于所有的 x，有 P(X=x)≥0。
归一性：所有可能取值的概率之和等于1，即

$\sum_{x}^{}P(X=x)=1$

3.连续型随机变量及其概率密度函数

1.特点

连续性：随机变量的取值是连续的，可以在一个或多个区间内取任意值。
不可数性：取值是不可数的，即有无限多个可能的取值。
概率分布：每个取值区间都有一个特定的概率，且整个取值范围的概率密度函数积分等于1。
连续型的随机变量取值在任意一点的概率都是0。在函数曲线上某个点的概率其实是取的该点附近值的大小。
连续情况下，端点无所谓。P{a≤x≤b}=P{a＜x＜b}

2.概率密度函数

对于一维实随机变量X，如果存在非负可积函数f(x)，使得对于任意实数x，

$a\leq b$

有

$P(a<X\leq b)=\int _a^bf(x)dx$

则称f(x)为随机变量X的概率密度函数。

密度函数f(x) 具有下列性质：

1.非负性：对于所有的 x，有

$f(x)\geq 0$

2.归一性：概率密度函数在整个取值范围的积分等于1，即

$\int _{-\infty}^{+\infty}f(x)dx=1$

概率密度函数的积分其实就是求曲线在某个区间内的面积。

4.分布函数

分布函数是描述随机变量取值分布情况的函数，无论是离散型随机变量还是连续型随机变量，都可以通过分布函数来描述其概率特性。分布函数通常指的是累积分布函数（Cumulative Distribution Function, CDF），用 F(x) 表示。

1.累积分布函数（CDF）

对于随机变量 X，其累积分布函数 F(x) 定义为随机变量 X 取值小于或等于 x 的概率：

$F(x)=P(X\leq x)$

2.CDF 的性质

非减性：随着 x 的增加，F(x) 是非减的，即 F(x1)≤F(x2)对于所有的 x1≤x2 成立。
范围：F(x)的值域在 0 到 1 之间，即 0≤F(x)≤1。
边界条件：
右连续：F(x) 在任意点 x 都是右连续的。对于离散型随机变量，F(x) 在任意点 x 是右连续，对于连续型随机变量，F(x) 在任意点 x 是连续的。
公式

3.对于不同类型随机变量的CDF

1. 离散型随机变量（求和）：

- 对于离散型随机变量，CDF 是阶梯式的，每个可能的取值点都有一个跳跃。

- 累积分布函数 F(x) 可以表示为：

2. 连续型随机变量（求积分）：

- 对于连续型随机变量，CDF 是概率密度函数（PDF）的积分，并且是连续且光滑的（除非在某些点上有跳跃）。

- 累积分布函数 F(x) 可以表示为：

总结：分布函数其实就是求曲线在某个区间内的面积。

5.常见的分布

1.0-1分布

0-1分布，也称为伯努利分布，是一种特殊的离散概率分布。它描述了在单次伯努利试验中只有两种可能结果的随机变量，通常这两种结果被称为“成功”和“失败”。

对于伯努利随机变量 XX，其概率质量函数为：

$P(X=x)=p^x(1-p)^{1-x}$

其中：

x 可以是0或1。
p 是成功（x=1）的概率。
1−p 是失败（x=0）的概率。

用分布表来表示：

X	1	0
P	p	1-p

0-1分布式伯努利试验只做一次的分布函数，如果是n重伯努利试验，分布函数则为（详见事件概率的伯努利公式）：

2.几何分布

几何分布（Geometric Distribution）是描述在成功之前需要进行的试验次数的离散型概率分布。具体来说，几何分布描述的是在独立重

复的伯努利试验中，首次成功所需的试验次数。

如果随机变量 X 表示获得第一次成功所需的试验次数，那么几何分布的概率质量函数为：

$P(X=k)=(1-p)^{k-1}.p$

其中：

k 是获得第一次成功时试验的次数，k=1,2,3,…
p 是单次试验成功的概率。
1−p 是单次试验失败的概率。

简单理解：在试验第k次时试验成功，那么前边k-1次试验都没有成功，所以几何分布表示前边没成功概率的次数

$(1-p)^{k-1}$

乘以成功的概率

3.二项分布

二项分布的概率质量函数（PMF）：

如果随机变量 X 表示 n 次伯努利试验中成功的次数，那么 X 服从参数为 n 和 p 的二项分布，记作 X∼B(n,p)。二项分布的概率质量函数为：

其中：

k 是成功的次数，k=0,1,2,…,n。
$C^k_{n}$

是组合数，表示从 n 次试验中选择 k 次成功的不同方式的数目，计算公式为

$C_n^k=\frac{n!}{k!(n-k)!}$
p 是单次试验成功的概率。
1−p 是单次试验失败的概率。

其实就是事件概率中的伯努利公式。

k的最大可能值：

k 取最接近 (n+1)p 的整数:

(n+1)p不为整数，则取最接近 (n+1)p 的整数为最大值。
(n+1)p为整数，则取 (n+1)p 和(n+1)p-1都是最大值。

4.泊松分布

泊松分布（Poisson Distribution）是描述在固定时间或空间内事件发生次数的离散型概率分布。它适用于事件发生的概率较小且事件之间相互独立的情况。二项分布的一种极端情况，当n足够大，p足够小时求极限，就得到了泊松分布

设随机变量 X 服从泊松分布，其参数为 λ，表示单位时间或空间内事件发生的平均次数。则 X 的概率质量函数（PMF）为：

其中:

k 是事件发生的次数，k=0,1,2,…。
λ 是单位时间（或单位面积）内事件平均发生的次数。

泊松分布在实际中有广泛的应用，例如：

交通流量分析：描述一段时间内通过某个路口的车辆数。
电话呼叫中心：预测一定时间内接到的电话数量。
生态学：模拟某段时间内到达的候鸟数量。
放射性物质：描述一定时间内放射性物质发射粒子的数量。

当二项分布的试验次数 n 很大而成功概率 p 很小时，二项分布可以用泊松分布来近似。具体来说，如果 n 足够大且 np=λ 保持不变，则二项分布 B(n,p)可以用泊松分布 P(λ)来近似。

5.均匀分布

在连续均匀分布中，所有可能的结果是连续的，并且在相同长度间隔的分布概率是相同的。

1.均匀分布的概率密度函数（PDF）：

对于连续型随机变量 X，如果它服从区间 [a,b]上的均匀分布，其概率密度函数为：

其中：

a 是区间的下界。
b 是区间的上界。
b−a 是区间的长度。

为什么f(x)=1/(b-a)?

根据概率密度函数定义可知，在整个取值范围的积分等于1，其积分就是求曲线面积，f(x)在曲线中相当于高，(b−a)相当于曲线的宽，所以曲线面积

2.累积分布函数（CDF）：

推导：

当x<a：

x不在[a,b]区间内

当a≤x<b时：

当b≤x时：

6.指数分布

1.定义

指数分布（Exponential Distribution）是一种连续概率分布，它描述了在两个连续事件发生之间的时间间隔，这两个事件是完全随机的，且具有恒定的平均发生率。指数分布通常用于模拟独立随机事件发生的时间间隔，如电话呼叫的到达时间、放射性物质的衰变时间等。

2.概率密度函数

其中：

- x 是随机变量，表示事件发生的时间间隔。
- λ 是率参数，表示单位时间内事件发生的平均次数。

3.分布函数

推导：

当x≥0：

当x<0：

7.正态分布

正态分布（Normal Distribution），也称为高斯分布（Gaussian Distribution），是连续概率分布的一种。它是统计学中最重要的概率

分布之一，因为许多自然和社会现象的分布都近似于正态分布。正态分布在自然科学和社会科学的许多领域都有应用，包括生物学、物理

学、经济学和社会科学，记作

$X~N(u,\sigma ^2)$

1.概率密度函数

其中：

x 是随机变量。
μ 是均值。
σ是标准差。
σ^2是方差。

2.性质

（1）y=f(x)以x=u为对称轴

（2）x=u时，f(x)取到最大值

（3）y=f(x)以x轴为渐近线，x±σ为拐点

（4）σ固定，u变化，图像左右移动；u固定，σ变小，最高点上移，σ变大，最高点下移

3.分布函数

4.标准正态分布

标准正态分布的均值为0，标准差为1

概率密度函数

分布函数

性质

（1）y轴是对称轴，为偶函数

（2）概率密度函数：根据偶函数定义可知，

$f_{0}(x)=f_{0}(-x)$

（3）分布函数：

$F_{0}(-x)=1-F_{0}(x)$

根据曲线图像方便观察：

由上图可知，F(-x)是曲线中红色部分的面积，F(x)是曲线中黄色部分的面积，由分布函数的性质可知，整个曲线的面积=1，所以蓝色部分的面积=1-黄色部分面积=1-F(x)，另外正态分布曲线是以y轴对称的，蓝色部分的面积=F(-x)，所以：F(-x)=1-F(x)

5.正态分布标准化

假设 X 是一个服从正态分布的随机变量，记作

其中：

标准化的步骤如下：

1.中心化：将 X 减去均值 μ，得到一个新的随机变量 Y：

此时，

2.标准化：将x减去均值u，得到一个新的随机变量Y

此时，Z 的均值为0，方差为1，即 Z∼N(0,1)。

标准化的公式

标准化后的随机变量 Z 的公式为：

标准化正态分布和正态分布的关系

概率密度函数：

f(x)：标准正态密度函数；

分布函数：

F(x)：标准正态分布函数；

6.离散型随机变量函数的分布的计算方法

离散型随机变量函数的分布通常指的是如何从已知的离散型随机变量出发，通过某种函数关系得到新的随机变量，并确定这个新随机变量的概率分布。

离散型随机变量函数的分布的计算方法：

假设有一个离散型随机变量 X，其概率质量函数（PMF）为 P(X=x)，现在我们定义一个新的随机变量 Y=g(X)，其中 g 是一个函数。我们想要找到 Y 的概率分布。

1. 直接法：

对于每一个可能的 y 值，我们可以通过以下步骤计算 Y 取值为 y 的概率：

确定 x 的值：找出所有使得 g(x)=y 成立的 x 的值。
计算概率：对于每个满足条件的 x，将 X 取该值的概率相加。

数学上，这可以表示为：

其中

表示所有使得 g(x)=y成立的 x 的集合。可以理解为y=g(x)的逆函数。

2. 间接法：

如果函数 g 是单调的，或者 Y 的取值范围有限，我们可以通过以下步骤计算 Y 的概率分布：

列出所有可能的 y 值：确定 Y 可能取到的所有值。
计算每个 y 的概率：对于每个 y，计算 P(Y=y)。

对于离散型随机变量函数的分布函数计算，最简单的方法是列出随机变量X的分布表，然后根据新的函数关系计算出新随机变量Y的值，其值对应的概率就是X原来值对应的概率值，然后形成分布表，如果Y值有重复，则将重复值对应的概率相加即可。

7.连续型随机变量函数的分布

连续型随机变量函数的分布是指通过一个连续型随机变量 XX 的函数 Y=g(X)得到的新的随机变量 Y 的分布。

计算方法：

分布函数法

1.计算Y的分布函数

2.求导得到的概率密度函数

2. 多维随机变量及其分布

1.二维随机变量及其分布

假设E是随机试验，Ω是样本空间，X、Y是Ω的两个变量；(X,Y)就叫做二维随机变量或二维随机向量。X、Y来自同一个样本空间。

1.联合分布函数

2.性质：

（1）0≤F(x,y) ≤1

（2）F(x,y) 不减，例如：y固定，x1<x2，F(x1,y)<F(x2,y)

（3）F(-∞,y)=F(x,-∞)=F(-∞,-∞)=0，F(+∞,+∞)=1

（4）F(x,y)分别关于x和y右连续

（5）

图形解释:

表示下面图形面积：

3.边缘分布

X的边缘分布：

这表示在所有可能的 Y 值上，X 取值 x 的概率总和。从图形曲线上理解就是求小于x的所有点的面积，Y随意取值。

Y的边缘分布：

表示在所有可能的 X 值上，Y 取值 y的概率总和。从图形曲线上理解就是求小于y的所有点的面积，X随意取值。

2.二维离散型随机变量的联合分布和边缘分布

联合概率质量函数 P(X=x,Y=y) 描述了随机变量 X 和 Y 同时取特定值 x 和y 的概率。联合PMF满足以下性质：

非负性：对于所有的 x 和 y，有 P(X=x,Y=y)≥0。
归一性：所有可能的 x 和 y 值的概率之和等于1，即：

联合分布函数：

边缘分布

边缘概率质量函数可以通过对联合PMF的适当求和得到。

边缘PMF $P_{X}(x)$ ：表示随机变量 X 取特定值 x 的概率，不考虑 Y的值。计算方法为：

其中，求和是对所有可能的 y 值进行。
边缘PMF $P_{Y}(y)$ ：表示随机变量 Y取特定值 y 的概率，不考虑 X 的值。计算方法为：

其中，求和是对所有可能的 x 值进行。

3.二维连续随机变量的联合密度和边缘密度函数

对于二维连续随机变量 X 和 Y，其分布函数为：

则F(x,y)是分布函数，f(x,y)是联合密度函数。

f(x,y)的性质：

非负性：对于所有的 x 和 y，有 f(x,y)≥0。
归一性：在整个 x 和 y 的取值范围上的积分等于1，即：

这个积分是对所有可能的 x 和 y 值进行的。

边缘密度函数

边缘分布函数：

求导，得出边缘密度函数：

求X的边缘密度函数就是对y求积分，对Y的边缘密度函数就是对x求积分。

4.条件分布

条件分布是指在已知另一个随机变量或事件的条件下，该随机变量的概率分布。

5.离散型随机变量的条件分布

条件概率质量函数定义为：

其中 P(X=x,Y=y)是 X 和 Y的联合概率质量函数，P(Y=y) 是 Y 的边缘概率质量函数。

6.连续型随机变量的条件分布

在Y=y条件下，条件概率密度函数为：

其中 f(x,y) 是 X 和 Y 的联合概率密度函数， $f_{Y}(y)$ 是 Y的边缘概率密度函数。

同理，在X=x条件下，条件概率密度函数为：

其中 f(x,y) 是 X 和 Y 的联合概率密度函数， $f_{X}(x)$ 是 X的边缘概率密度函数。

在Y=y的条件下，X的条件分布函数：

在X=x的条件下，Y的条件分布函数：

7.随机变量的独立性

定义

两个随机变量 X*X* 和 Y*Y* 被称为独立的，如果它们满足以下条件：

对于连续型随机变量：它们的联合概率密度函数f(x,y)可以表示为各自边缘概率密度函数的乘积：

对于离散型随机变量：它们的联合概率质量函数P(X=x,Y=y)可以表示为各自边缘概率质量函数的乘积：

8.二维随机变量函数的分布

1.二维离散型随机变量函数的分布

二维离散型随机变量函数的分布指的是在给定两个离散型随机变量 X 和 Y的情况下，它们函数 Z=g(X,Y)的分布。这里

g(X,Y)是一个定义在 X和 Y取值范围内的函数。

要找到函数 Z 的分布，我们需要确定 Z 的每一个可能值的概率。具体步骤如下：

确定函数的输出值：列出函数 Z=g(X,Y)可能的所有输出值。
计算每个输出值的概率：对于每一个可能的输出值 z，计算 Z=z的概率。这通常涉及到对 X 和 Y的联合概率质量函数 P(X=x,Y=y)进行求和。
构建概率质量函数：构建函数 Z 的概率质量函数，即对于每一个可能的 z，确定 P(Z=z)。

2 二维连续型随机变量函数的分布

二维连续型随机变量函数的分布是指由两个连续型随机变量 (X,Y)构成的联合分布，并通过某种函数关系 Z=g(X,Y)得到一个新的随机变量 Z的分布。

假设 (X,Y)是一个二维连续型随机变量，其联合概率密度函数为 f(x,y)。设 Z=g(X,Y) 是一个函数关系，其中 g 是一个已知的函数。我们需要

找到 Z 的概率密度函数 $f_{Z}(z)$

具体步骤如下：

1. 计算 Z的累积分布函数 $F_{Z}(z)$ ：

这可以通过对联合分布函数进行积分得到：

2.求导得到概率密度函数 $f_{Z}(z)$ ：

对于某些特定的函数 g(X,Y)，可以直接求出 Z 的概率密度函数。例如，如果 g(X,Y)=X+Y，则可以通过以下步骤求出 Z 的概率密度函数：

确定 Z 的范围：

Z=X+Y 确定 Z 的可能取值范围。
计算 Z的概率密度函数：

这称为卷积公式。