10.11概率论

最新推荐文章于 2025-03-23 21:51:08 发布

来自深圳

最新推荐文章于 2025-03-23 21:51:08 发布

阅读量1.3k

点赞数 19

文章标签：概率论

本文链接：https://blog.youkuaiyun.com/qq_63161350/article/details/142858956

版权

3.连续型随机变量及其概率密度函数

连续型随机变量是取值可以是某个区间内任意实数的随机变量。与离散型随机变量不同，连续型随机变量的取值是连续的，不可数的。连续型随机变量的概率分布通常由概率密度函数（Probability Density Function, PDF）描述。

频率密度直方图性质：
（1）每个小长方形面积等于该组的频率，即频率密度x组距=频率/组距x组距=频率
（2）所有长方形面积之和为1
（3）介于x=a、x=b之间的面积近似于(a,b]的频率
（4）当组距取得很小，形成一条光滑曲线，该曲线可看作概率密度函数

连续型随机变量的特点：

连续性：随机变量的取值是连续的，可以在一个或多个区间内取任意值。
不可数性：取值是不可数的，即有无限多个可能的取值。
概率分布：每个取值区间都有一个特定的概率，且整个取值范围的概率密度函数积分等于1。
连续型的随机变量取值在任意一点的概率都是0。在函数曲线上某个点的概率其实是取的该点附近值的大小。
连续情况下，端点无所谓。P{a≤x≤b}=P{a＜x＜b}
概率密度函数

对于一维实随机变量X，如果存在非负可积函数f(x)，使得对于任意实数x，
$a\leq b$
有
$P(a<X\leq b)=\int _a^bf(x)dx$
，则称f(x)为随机变量X的概率密度函数。

密度函数f(x) 具有下列性质：

非负性：对于所有的 x，有
$f(x)\geq 0$
归一性：概率密度函数在整个取值范围的积分等于1，即
$\int _{-\infty}^{+\infty}f(x)dx=1$
概率密度函数的积分其实就是求曲线在某个区间内的面积。

4.分布函数

分布函数是描述随机变量取值分布情况的函数，无论是离散型随机变量还是连续型随机变量，都可以通过分布函数来描述其概率特性。分布函数通常指的是累积分布函数（Cumulative Distribution Function, CDF），用 F(x) 表示。

累积分布函数（CDF）

对于随机变量 X，其累积分布函数 F(x) 定义为随机变量 X 取值小于或等于 x 的概率：
$F (x) = P (X \leq x)$
CDF 的性质

非减性：随着 x 的增加，F(x) 是非减的，即 F(x1)≤F(x2)对于所有的 x1≤x2 成立。
范围：F(x)的值域在 0 到 1 之间，即 0≤F(x)≤1。
边界条件：
$\lim⁡ _{x\rightarrow −\infty}F(x)=0和 \lim⁡ _{x\rightarrow +\infty}F(x)=1$
右连续：F(x) 在任意点 x 都是右连续的。对于离散型随机变量，F(x) 在任意点 x 是右连续，对于连续型随机变量，F(x) 在任意点 x 是连续的。

公式
$P(X≤x)\\ P(X≤a) = F(a)\\ P(X>a) = 1-P(X≤a) = 1-F(a)\\ P(a<X≤b) = P(X≤b)-P(X≤a)=F(b)-F(a)$
对于不同类型随机变量的CDF

离散型随机变量：
- 对于离散型随机变量，CDF 是阶梯式的，每个可能的取值点都有一个跳跃。
- 累积分布函数 F(x) 可以表示为：
  $F(x)=P(X≤x)=∑_{y≤x}P(X=y)$
连续型随机变量：
- 对于连续型随机变量，CDF 是概率密度函数（PDF）的积分，并且是连续且光滑的（除非在某些点上有跳跃）。
- 累积分布函数 F(x) 可以表示为：
  $F(x)=P(X≤x)=∫_{−∞}^xf(t) dt$

分布函数其实就是求曲线在某个区间内的面积。

例子

1.假设概率分布表如下：

X	-1	2	3
P	1/2	1/3	1/6

求分布函数F(x)

解：

分布函数F(x)的x取值范围为[−∞,+∞]

根据概率分布表划分x的取值范围：

当x<-1：
$F (x) = P (X \leq x) = 0$
随机变量X比x还要小，在分布表中没有对应的概率，表示是不可能事件，所以概率为0

当-1≤x<2：
$F(x)=P(X≤x)=∑_{y≤x}P(X=y)=1/2$
在当前x的取值范围内，在分布表中有x=-1的概率，所以F(x)就是x=-1的概率

当2≤x<3:
$F(x)=P(X≤x)=∑_{y≤x}P(X=y)=1/2+1/3=5/6$
在x的取值范围内随机变量X比x要小的点有-1、2，所以是-1、2点概率之和

当3≤x：
$F(x)=P(X≤x)=∑_{y≤x}P(X=y)=1/2+1/3+1/6=1$
所以分布函数为：
$F(x)=\begin{cases} 0,x<-1\\ \dfrac{1}{2},-1≤x<2\\ \dfrac{5}{6},2≤x<3\\ 1,3≤x \end{cases}$
从以上例子可以看出，离散型随机变量分布函数就是找x的右区间，然后将小于右区间值的概率相加。

2.假设函数：
$f(x)=\begin{cases} -\dfrac{1}{2}x+1,0≤x≤2\\ 0,其它 \end{cases}$
求分布函数F(x)

解：

分布函数F(x)的x取值范围为[−∞,+∞]

当x<0时：
$F(x)=P(X≤x)=∫_{−∞}^xf(t) dt=0$
当0≤x<2时：
$F(x)=∫_{−∞}^xf(t) dt=∫_{−∞}^0f(t) dt+∫_0^xf(t) dt=0+∫_0^x(-\dfrac{1}{2}t+1) dt=-\dfrac{1}{4}x^2+x$
当2≤x时：
$F(x)=∫_{−∞}^xf(t) dt=∫_{−∞}^0f(t) dt+∫_{0}^2f(t) dt+∫_{2}^{+∞}f(t) dt=0+∫_{0}^2(-\dfrac{1}{2}t+1) dt+0=1$
所以分布函数：
$F(x)=\begin{cases} 0,x<0\\ -\dfrac{1}{4}x^2+x,0≤x<2\\ 1,2≤x \end{cases}$

5.常见的分布

5.1 0-1分布

0-1分布，也称为伯努利分布，是一种特殊的离散概率分布。它描述了在单次伯努利试验中只有两种可能结果的随机变量，通常这两种结果被称为“成功”和“失败”。

对于伯努利随机变量 XX，其概率质量函数为：

$P(X=x)=p^x(1−p)^{1−x}$
其中：

x 可以是0或1。
p 是成功（x=1）的概率。
1−p 是失败（x=0）的概率。

用分布表来表示：

X	1	0
P	p	1-p

0-1分布式伯努利试验只做一次的分布函数，如果是n重伯努利试验，分布函数则为（详见事件概率的伯努利公式）：
$C_n^kp^k(1−p)^{n−k}$

5.2 几何分布

几何分布（Geometric Distribution）是描述在成功之前需要进行的试验次数的离散型概率分布。具体来说，几何分布描述的是在独立重

复的伯努利试验中，首次成功所需的试验次数。

如果随机变量 X 表示获得第一次成功所需的试验次数，那么几何分布的概率质量函数为：
$P(X=k)=(1−p)^{k−1}⋅p$
其中：

k 是获得第一次成功时试验的次数，k=1,2,3,…
p 是单次试验成功的概率。
1−p 是单次试验失败的概率。

简单理解：在试验第k次时试验成功，那么前边k-1次试验都没有成功，所以几何分布表示前边没成功概率的次数
$1−p)^{k−1}$
乘以当前成功的概率。

5.3 二项分布

二项分布的概率质量函数（PMF）：

如果随机变量 X 表示 n 次伯努利试验中成功的次数，那么 X 服从参数为 n 和 p 的二项分布，记作 X∼B(n,p)。二项分布的概率质量函数为：
$P(X=k)=C_n^kp^k(1−p)^{n−k}$
其中：

k 是成功的次数，k=0,1,2,…,n。
$C_n^k$

是组合数，表示从 n 次试验中选择 k 次成功的不同方式的数目，计算公式为
$C_n^k=\dfrac{n!}{k!(n−k)!}$
p 是单次试验成功的概率。
1−p 是单次试验失败的概率。

其实就是事件概率中的伯努利公式。

k的最大可能值：

k 取最接近 (n+1)p 的整数:

(n+1)p不为整数，则取最接近 (n+1)p 的整数为最大值。
(n+1)p为整数，则取 (n+1)p 和(n+1)p-1都是最大值。

5.4 泊松分布

泊松分布（Poisson Distribution）是描述在固定时间或空间内事件发生次数的离散型概率分布。它适用于事件发生的概率较小且事件之间相互独立的情况。

设随机变量 X 服从泊松分布，其参数为 λ，表示单位时间或空间内事件发生的平均次数。则 X 的概率质量函数（PMF）为：
$P(X=k)=\dfrac{λ^k}{k!}e^{−λ}$
其中:

k 是事件发生的次数，k=0,1,2,…。
λ 是单位时间（或单位面积）内事件平均发生的次数。

泊松分布在实际中有广泛的应用，例如：

交通流量分析：描述一段时间内通过某个路口的车辆数。
电话呼叫中心：预测一定时间内接到的电话数量。
生态学：模拟某段时间内到达的候鸟数量。
放射性物质：描述一定时间内放射性物质发射粒子的数量。

当二项分布的试验次数 n 很大而成功概率 p 很小时，二项分布可以用泊松分布来近似。具体来说，如果 n 足够大且 np=λ 保持不变，则二项分布 B(n,p)可以用泊松分布 P(λ)来近似。

5.5 均匀分布

在连续均匀分布中，所有可能的结果是连续的，并且在相同长度间隔的分布概率是相同的。

均匀分布的概率密度函数（PDF）：

对于连续型随机变量 X，如果它服从区间 [a,b]上的均匀分布，其概率密度函数为：
$f(x)=\begin{cases}\dfrac{1}{b−a},& x∈[a,b]\\0,& x∉[a,b]\end{cases}$
其中：

a 是区间的下界。
b 是区间的上界。
b−a 是区间的长度。

为什么f(x)=1/(b-a)?

根据概率密度函数定义可知，在整个取值范围的积分等于1，其积分就是求曲线面积，f(x)在曲线中相当于高，(b−a)相当于曲线的宽，所以曲线面积
$S=宽\times 高=(b-a)\times f(x)=(b-a)\times \dfrac{1}{b-a}=1$
累积分布函数（CDF）：
$F(x)=\begin{cases} 0,& x<a\\ \dfrac{x−a}{b−a},& x∈[a,b]\\ 1,& x>b\end{cases}$
推导：

当x<a：

x不在[a,b]区间内
$F(x)=P(X\leq x)=\int _{-\infty}^xf(t)dt=0$
当a≤x<b时：
$F(x)=P(X\leq x)=\int _{-\infty}^xf(t)dt=\int _{-\infty}^af(t)dt+\int _{a}^xf(t)dt=\int _{a}^x\dfrac{1}{b-a}dt=\dfrac{x−a}{b−a}$
当b≤x时：
$F(x)=P(X\leq x)=\int _{-\infty}^xf(t)dt==\int _{-\infty}^af(t)dt+\int _{a}^bf(t)dt+\int _{b}^{+\infty}f(t)dt=1$

5.6 指数分布

指数分布（Exponential Distribution）是一种连续概率分布，它描述了在两个连续事件发生之间的时间间隔，这两个事件是完全随机

的，且具有恒定的平均发生率。指数分布通常用于模拟独立随机事件发生的时间间隔，如电话呼叫的到达时间、放射性物质的衰变时间

等。

概率密度函数
$f(x)=\begin{cases} λe^{−λx},&x≥0\\ 0,&x<0\end{cases}$
其中：

x 是随机变量，表示事件发生的时间间隔。
λ 是率参数，表示单位时间内事件发生的平均次数。

分布函数
$F(x)=\begin{cases} 1-e^{−λx},&x≥0\\ 0,&x<0\end{cases}$
推导：

当x≥0：
$F(x)=P(X\leq x)=\int _{-\infty}^xf(t)dt=\int _{-\infty}^0f(t)dt+\int _{0}^xf(t)dt=\int _{0}^xf(t)dt\\ =\int _{0}^xλe^{−λt}dt=-\int _{0}^xe^{−λt}d(-λt)=1-e^{−λx}$
当x<0：
$F(x)=P(X\leq x)=\int _{-\infty}^xf(t)dt=0$

5.7 正态分布

正态分布（Normal Distribution），也称为高斯分布（Gaussian Distribution），是连续概率分布的一种。它是统计学中最重要的概率

分布之一，因为许多自然和社会现象的分布都近似于正态分布。正态分布在自然科学和社会科学的许多领域都有应用，包括生物学、物理

学、经济学和社会科学，记作：
$X\sim N(μ,σ^2)$

5.7.1 正态分布

概率密度函数
$f(x)=\dfrac{1}{\sqrt{2π}σ}e^{−\dfrac{(x−μ)^2}{2σ^2}}$
其中：

x 是随机变量。
μ 是均值。
σ是标准差。
σ^2是方差。

性质
（1）y=f(x)以x=u为对称轴
（2）x=u时，f(x)取到最大值
（3）y=f(x)以x轴为渐近线，x±σ为拐点
（4）σ固定，u变化，图像左右移动；u固定，σ变小，最高点上移，σ变大，最高点下移

分布函数
$F(x)=P(X≤x)=\dfrac{1}{\sqrt{2π}σ}∫_{−∞}^xe^{−\dfrac{(t−μ)^2}{2σ^2}}dt$

5.7.2 标准正态分布

标准正态分布的均值为0，标准差为1

概率密度函数
$f(x)=\dfrac{1}{\sqrt{2π}}e^{−\dfrac{x^2}{2}}$
分布函数
$F(x)=\dfrac{1}{\sqrt{2π}}∫_{−∞}^xe^{−\dfrac{t^2}{2}}dt$
性质
（1）y轴是对称轴，为偶函数
（2）概率密度函数：根据偶函数定义可知，
$f_0(x)=f_0(-x)$
（3）分布函数：
$F_0(-x)=1-F_0(x)$
F(-x)是曲线中红色部分的面积，F(x)是曲线中黄色部分的面积，由分布函数的性质可知，整个曲线的面积=1，所以蓝色部分的面积=1-黄色部分面积=1-F(x)，另外正态分布曲线是以y轴对称的，蓝色部分的面积=F(-x)，所以：F(-x)=1-F(x)

5.7.3 正态分布标准化

假设 X 是一个服从正态分布的随机变量，记作
$X∼N(μ,σ^2)$
，其中：
$μ 是均值，σ^2 是方差。$
标准化的步骤如下：

中心化：将 X 减去均值 μ，得到一个新的随机变量 Y：

$Y = x - μ$

此时，
$Y 的均值为0，方差仍为 σ^2。$

标准化：将 Y 除以标准差 σ，得到一个新的随机变量 Z：

$Z=\dfrac{Y}{σ}=\dfrac{x−μ}{σ}$

此时，Z 的均值为0，方差为1，即 Z∼N(0,1)。

标准化的公式

标准化后的随机变量 Z 的公式为：
$Z=\dfrac{x−μ}{σ}$
标准化正态分布和正态分布的关系

概率密度函数：
$f(x)=\dfrac{1}{σ}f_0(\dfrac{x−μ}{σ})$
f(x)：标准正态密度函数；
$f_0(\dfrac{x−μ}{σ}):正太密度函数$
分布函数：
$F(x)=F_0(\dfrac{x−μ}{σ})$
F(x)：标准正态分布函数；
$F_0(\dfrac{x−μ}{σ}):正太分布函数$

6.离散型随机变量函数的分布

离散型随机变量函数的分布通常指的是如何从已知的离散型随机变量出发，通过某种函数关系得到新的随机变量，并确定这个新随机变量

的概率分布。

离散型随机变量函数的分布的计算方法：

假设有一个离散型随机变量 X，其概率质量函数（PMF）为 P(X=x)，现在我们定义一个新的随机变量 Y=g(X)，其中 g 是一个函数。我们想要找到 Y 的概率分布。

1. 直接法：

对于每一个可能的 y 值，我们可以通过以下步骤计算 Y 取值为 y 的概率：

确定 x 的值：找出所有使得 g(x)=y 成立的 x 的值。
计算概率：对于每个满足条件的 x，将 X 取该值的概率相加。

数学上，这可以表示为：
$P(Y=y)=∑_{x∈g^{−1}(y)}P(X=x)$
其中
$g^{−1}(y)$
表示所有使得 g(x)=y成立的 x 的集合。可以理解为y=g(x)的逆函数。

2. 间接法：

如果函数 g 是单调的，或者 Y 的取值范围有限，我们可以通过以下步骤计算 Y 的概率分布：

列出所有可能的 y 值：确定 Y 可能取到的所有值。
计算每个 y 的概率：对于每个 y，计算 P(Y=y)。

对于离散型随机变量函数的分布函数计算，最简单的方法是列出随机变量X的分布表，然后根据新的函数关系计算出新随机变量Y的值，其值对应的概率就是X原来值对应的概率值，然后形成分布表，如果Y值有重复，则将重复值对应的概率相加即可。

例如：

假设随机变量X的分布表：

X	1	2	3
P	0.2	0.5	0.3

求
$Y=X^2$
的概率分布。

解：根据随机变量的函数关系求出Y的值

Y	1	4	9

然后将X对应的概率按顺序填入

Y	1	4	9
P	0.2	0.5	0.3

即得到新的概率分布表。

例子

假设随机变量X的概率分布：

X	-2	-1	0	1	2
P	0.2	0.1	0.5	0.1	0.1

求
$Y=X^4-1$
的概率分布

解：

先根据随机变量的函数关系计算Y值，再将X的概率值填入

Y	15	0	-1	0	15
P	0.2	0.1	0.5	0.1	0.1

可以发现，Y值有重复项，需要将重复项合并，并将对应的概率值相加，合并后：

Y	15	0	-1
P	0.3	0.2	0.5

即得到新的概率分布表。

7.连续型随机变量函数的分布

连续型随机变量函数的分布是指通过一个连续型随机变量 XX 的函数 Y=g(X)得到的新的随机变量 Y 的分布。

计算方法：

分布函数法

计算 Y 的分布函数：

$F_Y(y)=P(Y≤y)=P(g(X)≤y)$

求导得到概率密度函数：

$f_Y(y)=\dfrac{d}{dy}F_Y(y)$

例子

假设随机变量X的概率密度函数为
$f_X(x)$
求
$Y = 3 X + 2$
的密度函数，假设
$f_X(x)$
服从在区间[0,4]的均匀分布：
$f_X(x)=\begin{cases} \dfrac{1}{4},& 0\leq x \leq 4\\ 0,& 其它 \end{cases}$
求
$f_Y(x)$
解：

计算 Y 的分布函数：
$F_Y(x)=P(Y\leq x)=P(3X+2\leq x)=P(X\leq \dfrac{x-2}{3})=F_X(\dfrac{x-2}{3})$

$上述步骤主要是使用F_X(x)来表示F_Y(x)$

求导得到概率密度函数
$f_Y(x)=F_Y'(x)=F_x'(\dfrac{x-2}{3})=\dfrac{1}{3}f_X(\dfrac{x-2}{3})$
根据题意可知，
$f_X(x)=\begin{cases} \dfrac{1}{4},& 0\leq x \leq 4\\ 0,& 其它 \end{cases}$
则
$f_Y(x)=\begin{cases} \dfrac{1}{12},& 2\leq x \leq 14\\ 0,& 其它 \end{cases}$
注意：x的取值区间发生了变化，因为Y=3X+2，所以此时，Y对应的x取值范围也要根据函数的映射关系来确定

多维随机变量及其分布

1.二维随机变量及其分布

假设E是随机试验，Ω是样本空间，X、Y是Ω的两个变量；(X,Y)就叫做二维随机变量或二维随机向量。X、Y来自同一个样本空间。

联合分布函数
$F (x, y) = P (X \leq x, Y \leq y)$
几何意义表示对立体曲线的体积

即F(x,y)表示求(x,y)左下方的面积。

性质：
（1）0≤F(x,y) ≤1
（2）F(x,y) 不减，例如：y固定，x1<x2，F(x1,y)<F(x2,y)
（3）F(-∞,y)=F(x,-∞)=F(-∞,-∞)=0，F(+∞,+∞)=1
（4）F(x,y)分别关于x和y右连续
（5）
$对于x_1<x_2，y_1<y_2\\ P(x_1<X≤x_2，y_1<Y≤y_2) = F(x_2,y_2) - F(x_2,y_1)-F(x_1,y_2)+F(x_1,y_1)$
图形解释：
$P(x_1<X≤x_2，y_1<Y≤y_2)$

等式右边的分布函数用如下图形表示：

$F(x_2,y_2)$
表示图中蓝色区域
$F(x_2,y_1)$
表示红色区域
$F(x_1,y_2)$
表示黄色色区域

所以
$F(x_2,y_2) - F(x_2,y_1)-F(x_1,y_2)$
就是只有蓝色的区域

但是
$F(x_1,y_1)$
的区域在减的过程中被减掉了两次，需要补回来一次，所以：
$F(x_2,y_2) - F(x_2,y_1)-F(x_1,y_2)+F(x_1,y_1)$
所表示的图形面积才是
$P(x_1<X≤x_2，y_1<Y≤y_2)$
所以：
$对于x_1<x_2，y_1<y_2\\ P(x_1<X≤x_2，y_1<Y≤y_2) = F(x_2,y_2) - F(x_2,y_1)-F(x_1,y_2)+F(x_1,y_1)$
边缘分布

X的边缘分布：
$F_X(x) = P(X≤x) = F(x,+∞) = P(X≤x,Y<+∞)$
这表示在所有可能的 Y 值上，X 取值 x 的概率总和。从图形曲线上理解就是求小于x的所有点的面积，Y随意取值。

Y的边缘分布：
$F_Y(y) = P(Y≤y) = F(+∞,y) = P(X<+∞,Y≤y)$
表示在所有可能的 X 值上，Y 取值 y的概率总和。从图形曲线上理解就是求小于y的所有点的面积，X随意取值。

2.二维离散型随机变量的联合分布和边缘分布

联合概率质量函数 P(X=x,Y=y) 描述了随机变量 X 和 Y 同时取特定值 x 和y 的概率。联合PMF满足以下性质：

非负性：对于所有的 x 和 y，有 P(X=x,Y=y)≥0。
归一性：所有可能的 x 和 y 值的概率之和等于1，即：
$_x∑_yP(X=x,Y=y)=1$

概率分布表解释：

假设由一个概率分布表：

X\Y	1	2	3
1	0	1/2	1/8
2	1/8	1/8	1/8

非负性表示分布表中的所有概率都要大于等于0。例如：
$P(X=1,Y=2)=\dfrac{1}{2}\geq 0\\ P(X=2,Y=2)=\dfrac{1}{8}\geq 0$
归一性表示分布表中所有概率之和等于1。

联合分布函数
$F(x,y)=P(X\leq x,Y\leq y)=∑_{x_i\leq x}∑_{y_j\leq y}P(X=x,Y=y)$
概率分布表解释：

F(x,y)的值就是在分布表中找到对应的（x，y）对应的位置，然后将其左上角的概率相加。

例如：
$F(1,2)=P(X\leq 1,Y\leq 2)=P(1,1)+P(1,2)=0+\dfrac{1}{2}=\dfrac{1}{2}\\ F(2,2)=P(X\leq 2,Y\leq 2)=P(1,1)+P(1,2)+P(2,1)+P(2,2)=0+\dfrac{1}{2}+\dfrac{1}{8}+\dfrac{1}{8}=\dfrac{3}{4}$
边缘分布

边缘概率质量函数可以通过对联合PMF的适当求和得到。

边缘PMF
$P_X(x)$
：表示随机变量 X 取特定值 x 的概率，不考虑 Y的值。计算方法为：
$P_X(x)=∑_yP(X=x,Y=y)$
其中，求和是对所有可能的 y 值进行。
边缘PMF
$P_Y(y)$
：表示随机变量 Y取特定值 y 的概率，不考虑 X 的值。计算方法为：
$P_Y(y)=∑_xP(X=x,Y=y)$
其中，求和是对所有可能的 x 值进行。

概率分布表解释：

对行求和，得到对X的边缘分布。

对列求和，得到对Y的边缘分布。

例如：

X\Y	1	2	3
1	0	1/2	1/8
2	1/8	1/8	1/8

求X的边缘分布：

X	1	2
P	5/8	3/8

当X=1时，求该行的概率之和，即：0+1/2+1/8=5/8

以此类推。

求Y的边缘分布：

Y	1	2	3
P	1/8	5/8	1/4

当Y=1时，求该列的概率之和，即0+1/8=1/8

以此类推。

3.二维连续随机变量的联合密度和边缘密度函数

对于二维连续随机变量 X 和 Y，其分布函数为：
$F(x,y) = P(X≤x,Y≤y) = ∫_{-∞}^x∫_{-∞}^yf(s,t)dsdt$
则F(x,y)是分布函数，f(x,y)是联合密度函数。

f(x,y)的性质：

非负性：对于所有的 x 和 y，有 f(x,y)≥0。
归一性：在整个 x 和 y 的取值范围上的积分等于1，即：
$∫_{-\infty}^{+\infty}∫_{-\infty}^{+\infty}f(x,y) dxdy=1$
这个积分是对所有可能的 x 和 y 值进行的。

例子

假设联合密度函数：
$f(x,y)=\begin{cases} e^{-(x+y)}, & x>0,y>0\\ 0,& 其它 \end{cases}$
求分布函数F(x,y)

解：

根据分布函数可知：
$F(x,y) = P(X≤x,Y≤y) = ∫_{-∞}^x∫_{-∞}^yf(s,t)dsdt$
当x>0且y>0时
$_{-∞}^x∫_{-∞}^yf(s,t)dsdt=∫_{0}^x∫_{0}^ye^{-(s+t)}dsdt=∫_{0}^xe^{-s}ds∫_{0}^ye^{-t}dt=(1-e^{-x})(1-e^{-y})$
当x,y有一个小于0时
$F(x,y) = P(X≤x,Y≤y) = ∫_{-∞}^x∫_{-∞}^yf(s,t)dsdt=0$
所以
$F(x,y)=\begin{cases} (1-e^{-x})(1-e^{-y}), & x>0,y>0\\ 0,& 其它 \end{cases}$
边缘密度函数

边缘分布函数：
$F_X(x)=F(x,+\infty)=\int _{-\infty}^x[\int _{-\infty}^{+\infty}f(s,t)dt]ds$
求导，得出边缘密度函数：
$f_X(x)=\int _{-\infty}^{+\infty}f(x,t)dt=\int _{-\infty}^{+\infty}f(x,y)dy\\ f_Y(y)=\int _{-\infty}^{+\infty}f(s,y)ds=\int _{-\infty}^{+\infty}f(x,y)dx$
求X的边缘密度函数就是对y求积分，对Y的边缘密度函数就是对x求积分。

例子

假设联合密度函数：
$f(x,y)=\dfrac{1}{\pi^2(1+x^2)(1+y^2)}$
求边缘密度函数。

解：

对X的边缘密度函数：
$f_X(x)=\int _{-\infty}^{+\infty}f(x,y)dy=\int _{-\infty}^{+\infty}\dfrac{1}{\pi^2(1+x^2)(1+y^2)}dy\\ =\dfrac{1}{\pi^2(1+x^2)}\int _{-\infty}^{+\infty}\dfrac{1}{(1+y^2)}dy=\dfrac{1}{\pi^2(1+x^2)}\int _{-\infty}^{+\infty}arctan(y)|_{-\infty}^{+\infty}=\dfrac{1}{\pi(1+x^2)}$
对Y的边缘密度函数：
$f_Y(y)=\int _{-\infty}^{+\infty}f(x,y)dy=\dfrac{1}{\pi(1+y^2)}$

4.条件分布

条件分布是指在已知另一个随机变量或事件的条件下，该随机变量的概率分布。
$F(x|A)=P(X\leq x | A)$
例子

假设概率密度函数
$f(x)=\dfrac{1}{\pi(1+x^2)}$
求在X>1的条件下f(x)的条件分布函数

解：
$F(x|X>1)=P(X\leq x|X>1)$
当x≤1时：

不满足条件
$F (x ∣ X > 1) = 0$
当x>1时：
$F(x|X>1)=P(X\leq x|X>1)=\dfrac{P(X\leq x,X>1)}{P(X>1)}$
计算分子：
$P(X\leq x,X>1)=P(1\leq X\leq x)=\int _1^x\dfrac{1}{\pi(1+x^2)}dx=\dfrac{1}{\pi}arctan(x)|_1^x=\dfrac{arctanx}{\pi}-\dfrac{1}{\pi}.\dfrac{\pi}{4}=\dfrac{arctanx}{\pi}-\dfrac{1}{4}$
计算分母：
$P(X>1)=\int _1^{+\infty}\dfrac{1}{\pi(1+x^2)}dx=\dfrac{1}{\pi}arctan(x)|_1^{+\infty}=\dfrac{1}{\pi}.(\dfrac{\pi}{2}-\dfrac{\pi}{4})=\dfrac{1}{4}$
则
$F(x|X>1)=\dfrac{P(X\leq x,X>1)}{P(X>1)}=\dfrac{4arctanx}{\pi}-1$
所以在X>1的条件下f(x)的条件分布函数
$F(x|X>1)=\begin{cases} \dfrac{4arctanx}{\pi}-1, & x>1\\ 0,& x≤1 \end{cases}$

5.离散型随机变量的条件分布

条件概率质量函数定义为：
$P(X=x∣Y=y)=\dfrac{P(X=x,Y=y)}{P(Y=y)}$
其中 P(X=x,Y=y)是 X 和 Y的联合概率质量函数，P(Y=y) 是 Y 的边缘概率质量函数。

从分布表来理解：

假设概率分布表：

X\Y	0	1
0	0.1	0.3
1	0.3	0.3

P(Y=y) 是 Y 的边缘概率质量函数，Y 的边缘概率质量函数是对列求和：

Y	0	1
P	0.4	0.6

那么在Y=1的条件下，假设x=0，X=x的概率为：
$P(X=0∣Y=1)=\dfrac{P(X=0,Y=1)}{P(Y=1)}=\dfrac{0.3}{0.6}=0.5$
假设x=1，X=x的概率为：
$P(X=1∣Y=1)=\dfrac{P(X=1,Y=1)}{P(Y=1)}=\dfrac{0.3}{0.6}=0.5$
则在Y=1的条件下，X的分布函数为：

X	0	1
P(X\|Y=1)	0.3	0.3

其它情况如Y=0条件下X的分布函数、X=0及X=1条件下Y的分布函数同上。

6.连续型随机变量的条件分布

在Y=y条件下，条件概率密度函数为：
$f(x∣y)=\dfrac{f(x,y)}{f_Y(y)}$
其中 f(x,y) 是 X 和 Y 的联合概率密度函数，
$f_Y(y)$
是 Y的边缘概率密度函数。

同理，在X=x条件下，条件概率密度函数为：
$f(y∣x)=\dfrac{f(x,y)}{f_X(x)}$
其中 f(x,y) 是 X 和 Y 的联合概率密度函数，
$f_X(x)$
是 X的边缘概率密度函数。

在Y=y的条件下，X的条件分布函数：
$F(x|y)=\int _{-\infty}^xf(x∣y)dx=\int _{-\infty}^x\dfrac{f(u,y)}{f_Y(y)}du$
在X=x的条件下，Y的条件分布函数：
$F(y|x)=\int _{-\infty}^yf(y∣x)dy=\int _{-\infty}^y\dfrac{f(x,v)}{f_X(x)}dv$
例子

假设
$f(x,y)=\dfrac{1}{\pi^2(1+x^2)(1+y^2)},f_X(x)=\dfrac{1}{\pi(1+x^2)},f_Y(y)=\dfrac{1}{\pi(1+y^2)}$
求

在Y=y的条件下，X的条件密度函数；在X=x的条件下，Y的条件密度函数。

解：
$f(x|y)=\dfrac{f(x,y)}{f_Y(y)}=\dfrac{\pi(1+y^2)}{\pi^2(1+x^2)(1+y^2)}=\dfrac{1}{\pi(1+x^2)}\\ f(y|x)=\dfrac{f(x,y)}{f_X(x)}=\dfrac{\pi(1+x^2)}{\pi^2(1+x^2)(1+y^2)}=\dfrac{1}{\pi(1+y^2)}$

7.随机变量的独立性

定义

两个随机变量 XX 和 YY 被称为独立的，如果它们满足以下条件：

对于连续型随机变量：它们的联合概率密度函数f(x,y)可以表示为各自边缘概率密度函数的乘积：
$f(x,y)=f_X(x)⋅f_Y(y)$

对于离散型随机变量：它们的联合概率质量函数P(X=x,Y=y)可以表示为各自边缘概率质量函数的乘积：
$P (X = x, Y = y) = P (X = x) \cdot P (Y = y)$
例子

1.假设我们有两个公平的六面骰子，我们分别将它们记为骰子A和骰子B。

随机变量定义为：

让 X 表示骰子A的结果。

让 Y 表示骰子B的结果。

事件：

事件 A：“骰子A显示的数字大于3”。

事件 B：“骰子B显示的数字是偶数”。

问事件A和B是否独立。

解：

联合概率分布表：

X\Y	1	2	3	4	5	6
1	1\36	1\36	1\36	1\36	1\36	1\36
2	1\36	1\36	1\36	1\36	1\36	1\36
3	1\36	1\36	1\36	1\36	1\36	1\36
4	1\36	1\36	1\36	1\36	1\36	1\36
5	1\36	1\36	1\36	1\36	1\36	1\36
6	1\36	1\36	1\36	1\36	1\36	1\36

X的边缘概率分布表：

X	1	2	3	4	5	6
P	1/6	1/6	1/6	1/6	1/6	1/6

Y的边缘概率分布表：

Y	1	2	3	4	5	6
P	1/6	1/6	1/6	1/6	1/6	1/6

事件A的概率：
$P (A) = P (X > 3) = P (X = 4) + P (X = 5) + P (X = 6) = 1/2$
事件B的概率：
$P (B) = P (Y = 2) + P (Y = 4) + P (Y = 6) = 1/2$
事件A和B的联合概率：
$P(AB)=P(X=4,Y=2)+P(X=4,Y=4)+P(X=4,Y=6)\\ +P(X=5,Y=2)+P(X=5,Y=4)+P(X=5,Y=6)\\ +P(X=6,Y=2)+P(X=6,Y=4)+P(X=6,Y=6)=1/4$
所以
$P (A B) = P (A) P (B) = 1/4$
所以A、B事件是独立的。

2.假设经理8-12点到公司，秘书7-9点到公司，经理和秘书到公司的事件是独立的，求经理和秘书到公司的联合概率。

解：

设X是经理到公司的事件，Y为秘书到公司的事件，则：X、Y的密度函数服从均匀分布。
$f(x)=\begin{cases} \dfrac{1}{4},& 8<x<12\\ 0, & 其它 \end{cases}$

$f(y)=\begin{cases} \dfrac{1}{2},& 7<y<9\\ 0, & 其它 \end{cases}$

由于X、Y是独立的，则联合密度函数：
$f(x,y)=f(x)f(y)=\begin{cases} \dfrac{1}{8},& 8<x<12,7<y<9\\ 0, & 其它 \end{cases}$

8.二维随机变量函数的分布

8.1 二维离散型随机变量函数的分布

二维离散型随机变量函数的分布指的是在给定两个离散型随机变量 X 和 Y的情况下，它们函数 Z=g(X,Y)的分布。这里

g(X,Y)是一个定义在 X和 Y取值范围内的函数。

要找到函数 Z 的分布，我们需要确定 Z 的每一个可能值的概率。具体步骤如下：

确定函数的输出值：列出函数 Z=g(X,Y)可能的所有输出值。
计算每个输出值的概率：对于每一个可能的输出值 z，计算 Z=z的概率。这通常涉及到对 X 和 Y的联合概率质量函数 P(X=x,Y=y)进行求和。
构建概率质量函数：构建函数 Z 的概率质量函数，即对于每一个可能的 z，确定 P(Z=z)。

例子

假设有两个离散型随机变量 XX 和 YY，它们的联合PMF如下表所示：

X \ Y	1	2	3
1	0.1	0.2	0.0
2	0.0	0.3	0.0
3	0.1	0.1	0.2

求函数 Z=X+Y。

解：

确定函数的输出值：列出所有可能的 X 和 Y组合的和。

1+1=2

1+2=3

1+3=4

2+2=4

2+3=5

3+3=6

所以，Z 可能的值是 2, 3, 4, 5, 6。
计算每个输出值的概率：

P(Z=2)=P(X=1,Y=1)=0.1

P(Z=3)=P(X=1,Y=2)+P(X=2,Y=1)=0.2

P(Z=4)=P(X=1,Y=3)+P(X=2,Y=2)+P(X=3,Y=1)=0.0+0.3+0.1=0.4

P(Z=5)=P(X=2,Y=3)+P(X=3,Y=2)=0.1

P(Z=6)=P(X=3,Y=3)=0.2
构建概率质量函数：

P(Z=2)=0.1

P(Z=3)=0.2

P(Z=4)=0.4

P(Z=5)=0.1

P(Z=6)=0.2
函数分布表为：

Z 2 3 4 5 6
P 0.1 0.2 0.4 0.1 0.2

以上的解法比较麻烦，可以根据分布表来计算。

1.根据Z=X+Y，将X的每行分别于Y的每列分别相加，得到Z的取值，再按X、Y在表格中对应的单元格中的值照抄过来，得到：

Z	2	3	4	3	4	5	4	5	6
P	0.1	0.2	0.0	0.0	0.3	0.0	0.1	0.1	0.2

2.合并Z中重复的值及对应的概率，即概率相加：

Z	2	3	4	5	6
P	0.1	0.2	0.4	0.1	0.2

8.2 二维连续型随机变量函数的分布

二维连续型随机变量函数的分布是指由两个连续型随机变量 (X,Y)构成的联合分布，并通过某种函数关系 Z=g(X,Y)得到一个新的随机变量 Z

的分布。

假设 (X,Y)是一个二维连续型随机变量，其联合概率密度函数为 f(x,y)。设 Z=g(X,Y) 是一个函数关系，其中 g 是一个已知的函数。我们需要

找到 Z 的概率密度函数
$f_Z(z)$
具体步骤如下：

计算 Z的累积分布函数
$F_Z(z)$
：
$F_Z(z)=P(Z≤z)=P(g(X,Y)≤z)$

这可以通过对联合分布函数进行积分得到：
$F_Z(z)=∬_{g(x,y)≤z}f(x,y) dx dy$
求导得到概率密度函数
$f_Z(z)$
：
$f_Z(z)=\dfrac{d}{dz}F_Z(z)$

对于某些特定的函数 g(X,Y)，可以直接求出 Z 的概率密度函数。例如，如果 g(X,Y)=X+Y，则可以通过以下步骤求出 Z 的概率密度函数：

确定 Z 的范围：

Z=X+Y
确定 Z 的可能取值范围。
计算 Z的概率密度函数：
$f_Z(z)=∫_{−∞}^∞f_X(x)f_Y(z−x)dx$

这称为卷积公式。

例子

假设 (X,Y) 的联合概率密度函数为：
$\begin{cases} 2, & 0 \leq x \leq 1, 0 \leq y \leq 1 \\ 0, & \text{otherwise} \end{cases}$
求Z*=*X+Y的分布

解：

确定Z的范围：
$0\leq Z \leq 2$
先求分布函数：
$F_Z(z)=P(Z≤z)=∬_{g(x,y)≤z}f(x,y) dx dy$
当z<0时，因为x、y都大于0，所以事件不可能发生
$F_Z(z)=0$

$0 \leq x \leq z, 0 \leq y \leq z - x$

$F_Z(z)=P(Z≤z)=∬_{g(x,y)≤z}f(x,y) dx dy=\int_0^zdx\int_0^{z-x}2dy=2\int_0^z(z-x)dx=2(zx-\dfrac{1}{2}x^2)|_0^z=z^2$

所求面积=1-右上角三角形面积S
$S=\dfrac{(2-z)^2}{2}$

$F_Z(z)=P(Z≤z)=∬_{g(x,y)≤z}f(x,y) dx dy=2(1-\dfrac{(2-z)^2}{2})=2-(2-z)^2$

当z>2时，超出x、y的取值范围，不可能发生
$F_Z(z)=0$
所以：
$F_Z(z)=\begin{cases} z^2,& 0\leq z\leq 1\\ 1-\dfrac{(2-z)^2}{2},& 1\leq z\leq 2\\ 0,& 其它 \end{cases}$
求导：
$f_Z(z)=F_z'(z)=\begin{cases} 2z,& 0\leq z\leq 1\\ 4-2z,& 1\leq z\leq 2\\ 0,& 其它 \end{cases}$