第6章 随机变量的联合分布
6.1 联合分布函数
联合分布函数用于多个随机变量同时出现的概率特性。
定义
联合分布
设 $ X $ 和 $ Y $ 是两个随机变量,其联合累积分布函数定义为:
F(a,b)=P{ X≤a,Y≤b},−∞<a,b<∞ F(a, b) = P\{X \leq a, Y \leq b\}, \quad -\infty < a, b < \infty F(a,b)=P{ X≤a,Y≤b},−∞<a,b<∞
该函数描述了 $ X $ 和 $ Y $ 同时不超过某个值的概率。
边缘分布
从联合分布可以导出单个变量的分布,称为边缘分布。
-
对于 $ X $:
FX(a)=P{ X≤a}=limb→∞F(a,b)≡F(a,∞) F_X(a) = P\{X \leq a\} = \lim_{b \to \infty} F(a, b) \equiv F(a, \infty) FX(a)=P{ X≤a}=b→∞limF(a,b)≡F(a,∞) -
对于 $ Y $:
FY(b)=P{ Y≤b}=lima→∞F(a,b)≡F(∞,b) F_Y(b) = P\{Y \leq b\} = \lim_{a \to \infty} F(a, b) \equiv F(\infty, b) FY(b)=P{ Y≤b}=a→∞limF(a,b)≡F(∞,b)
理论上,所有涉及 $ X $ 和 $ Y $ 的联合概率都可以通过 $ F(a,b) $ 求解。
例如,求 $ P{X > a, Y > b} $:
P{ X>a,Y>b}=1−P({ X>a,Y>b}c)=1−P({ X≤a}∪{ Y≤b})=1−[P{ X≤a}+P{ Y≤b}−P{ X≤a,Y≤b}]=1−FX(a)−FY(b)+F(a,b)(1.1) \begin{array}{rcl} P\{X > a, Y > b\} & = & 1 - P\left(\{X > a, Y > b\}^c\right) \\ & = & 1 - P\left(\{X \leq a\} \cup \{Y \leq b\}\right) \\ & = & 1 - \left[P\{X \leq a\} + P\{Y \leq b\} - P\{X \leq a, Y \leq b\}\right] \\ & = & 1 - F_X(a) - F_Y(b) + F(a, b) \end{array} \tag{1.1} P{ X>a,Y>b}====1−P({ X>a,Y>b}c)1−P({ X≤a}∪{ Y≤b})1−[P{ X≤a}+P{ Y≤b}−P{ X≤a,Y≤b}]1−FX(a)−FY(b)+F(a,b)(1.1)
更一般地,对于区间概率:
P{
a1≤X≤a2,b1≤Y≤b2}=F(a2,b2)+F(a1,b1)−F(a1,b2)−F(a2,b1)(1.2) P\{a_1 \leq X \leq a_2, b_1 \leq Y \leq b_2\} = F(a_2, b_2) + F(a_1, b_1) - F(a_1, b_2) - F(a_2, b_1) \tag{1.2} P{
a1≤X≤a2,b1≤Y≤b2}=F(a2,b2)+F(a1,b1)−F(a1,b2)−F(a2,b1)(1.2)
其中 $ a_1 \leq a_2, b_1 \leq b_2 $。
联合分布列
当 $ X $ 和 $ Y $ 均为离散型时,定义其联合概率质量函数(joint PMF)为:
p(x,y)=P{ X=x,Y=y} p(x, y) = P\{X = x, Y = y\} p(x,y)=P{ X=x,Y=y}
边缘分布列由求和得到:
- $ p_X(x) = P{X = x} = \sum_{y: p(x,y)>0} p(x,y) $
- $ p_Y(y) = P{Y = y} = \sum_{x: p(x,y)>0} p(x,y) $
这些称为边缘分布列(marginal PMF),因其在联合分布表中位于“边缘”位置。
例 1a:抽球问题
坛中有 3 红球、4 白球、5 蓝球,从中随机抽取 3 个球。令 $ X :红球数,:红球数,:红球数, Y $:白球数。
计算联合分布列 $ p(i,j) = P(X=i, Y=j) $,使用超几何模型:
p(i,j)=(3i)(4j)(53−i−j)(123),其中 i+j≤3 p(i,j) = \frac{\binom{3}{i} \binom{4}{j} \binom{5}{3-i-j}}{\binom{12}{3}}, \quad \text{其中 } i+j \leq 3 p(i,j)=(312)(i3)(j4)(3−i−j5),其中 i+j≤3
具体计算如下:
| $ i \backslash j $ | 0 | 1 | 2 | 3 | 行和 $ = P(X=i) $ |
|---|---|---|---|---|---|
| 0 | $ \frac{10}{220} $ | $ \frac{40}{220} $ | $ \frac{30}{220} $ | $ \frac{4}{220} $ | $ \frac{84}{220} $ |
| 1 | $ \frac{30}{220} $ | $ \frac{60}{220} $ | $ \frac{18}{220} $ | 0 | $ \frac{108}{220} $ |
| 2 | $ \frac{15}{220} $ | $ \frac{12}{220} $ | 0 | 0 | $ \frac{27}{220} $ |
| 3 | $ \frac{1}{220} $ | 0 | 0 | 0 | $ \frac{1}{220} $ |
| 列和 $ = P(Y=j) $ | $ \frac{56}{220} $ | $ \frac{112}{220} $ | $ \frac{48}{220} $ | $ \frac{4}{220} $ |
例 1b:家庭孩子性别分布
某社区家庭子女分布:
- 无孩:15%
- 1孩:20%
- 2孩:35%
- 3孩:30%
每个孩子为男孩或女孩的概率均为 $ \frac{1}{2} $,且独立。
令 $ B :男孩数,:男孩数,:男孩数, G $:女孩数。
计算联合分布列 $ P(B=i, G=j) $:
- $ P(B=0, G=0) = P(\text{无孩}) = 0.15 $
- $ P(B=0, G=1) = P(1\text{孩}) \cdot P(\text{女孩}) = 0.20 \times \frac{1}{2} = 0.10 $
- $ P(B=0, G=2) = P(2\text{孩}) \cdot P(\text{两女}) = 0.35 \times \left(\frac{1}{2}\right)^2 = 0.0875 $
- $ P(B=0, G=3) = 0.30 \times \left(\frac{1}{2}\right)^3 = 0.0375 $
其余类似(如 $ P(B=1,G=1) = 0.20 \times \frac{1}{2} = 0.10 ,,, P(B=2,G=0) = 0.35 \times \frac{1}{4} = 0.0875 $,等等)
结果见下表:
| $ i \backslash j $ | 0 | 1 | 2 | 3 | $ P(B=i) $ |
|---|---|---|---|---|---|
| 0 | 0.15 | 0.10 | 0.0875 | 0.0375 | 0.3750 |
| 1 | 0.10 | 0.175 | 0.1125 | 0 | 0.3875 |
| 2 | 0.0875 | 0.1125 | 0 | 0 | 0.2000 |
| 3 | 0.0375 | 0 | 0 | 0 | 0.0375 |
| $ P(G=j) $ | 0.375 | 0.3875 | 0.2000 | 0.0375 |
联合密度函数
若存在非负函数 $ f(x,y) $,使得对任意二维区域 $ C $ 有:
P{ (X,Y)∈C}=∬(x,y)∈Cf(x,y) dx dy(1.3) P\{(X,Y) \in C\} = \iint_{(x,y)\in C} f(x,y)\,dx\,dy \tag{1.3} P{(X,Y)∈C}=∬(x,y)∈Cf(x,y)dxdy(1.3)
则称 $ X,Y $ 为联合连续型随机变量,$ f(x,y) $ 为联合概率密度函数。
特别地,若 $ A,B $ 为实数集,则:
P{ X∈A,Y∈B}=∫B∫Af(x,y) dx dy(1.4) P\{X \in A, Y \in B\} = \int_B \int_A f(x,y)\,dx\,dy \tag{1.4} P{ X∈A,Y∈B}=∫B∫Af(x,y)dxdy(1.4)
由联合密度求联合分布函数
F(a,b)=P{
X≤a,Y≤b}=∫−∞b∫−∞af(x,y) dx dy F(a,b) = P\{X \leq a, Y \leq b\} = \int_{-\infty}^b \int_{-\infty}^a f(x,y)\,dx\,dy F(a,b)=P{
X≤a,Y≤b}=∫−∞b∫−∞af(x,y)dxdy
若偏导数存在,则:
f(a,b)=∂2∂a∂bF(a,b) f(a,b) = \frac{\partial^2}{\partial a \partial b} F(a,b) f(a,b)=∂a∂b∂2F(a,b)
直观理解密度函数
对于很小的 $ da, db $,有:
P{ a<X<a+da,b<Y<b+db}≈f(a,b) da db P\{a < X < a+da, b < Y < b+db\} \approx f(a,b)\,da\,db P{ a<X<a+da,b<Y<b+db}≈f(a,b)dadb
即 $ f(a,b) $ 反映了 $ (X,Y) $ 在点 $ (a,b) $ 附近取值的“可能性密度”。
边缘密度函数
-
$ X $ 的边缘密度:
fX(x)=∫−∞∞f(x,y) dy f_X(x) = \int_{-\infty}^{\infty} f(x,y)\,dy fX(x)=∫−∞∞f(x,y)dy -
$ Y $ 的边缘密度:
fY(y)=∫−∞∞f(x,y) dx f_Y(y) = \int_{-\infty}^{\infty} f(x,y)\,dx fY(y)=∫−∞∞f(x,y)dx
例 1c:指数型联合密度
设 $ X,Y $ 的联合密度为:
f(x,y)={ 2e−xe−2y,x>0,y>00,否则 f(x,y) = \begin{cases} 2e^{-x}e^{-2y}, & x > 0, y > 0 \\ 0, & \text{否则} \end{cases} f(x,y)={ 2e−xe−2y,0,x>0,y>0否则
求:
(a) $ P(X > 1, Y < 1) $
P(X>1,Y<1)=∫01∫1∞2e−xe−2y dx dy=∫012e−2y[−e−x]1∞dy=∫012e−2ye−1dy=e−1∫012e−2ydy=e−1(1−e−2) \begin{aligned} P(X > 1, Y < 1) &= \int_0^1 \int_1^\infty 2e^{-x}e^{-2y}\,dx\,dy \\ &= \int_0^1 2e^{-2y} \left[ -e^{-x} \right]_1^\infty dy = \int_0^1 2e^{-2y} e^{-1} dy \\ &= e^{-1} \int_0^1 2e^{-2y} dy = e^{-1}(1 - e^{-2}) \end{aligned} P(X>1,Y<1)=∫01∫1∞

最低0.47元/天 解锁文章
655

被折叠的 条评论
为什么被折叠?



