19、概率分布与联合分布的深入解析

概率分布与联合分布解析

概率分布与联合分布的深入解析

1. 蒙特卡罗积分与修正积分方案

在计算积分 $\int_{0}^{1}\sqrt{1 - x^2}dx$ 时,采用重要性采样与蒙特卡罗积分结合的方法。将区间进行子区间划分,在每个子区间上使用均匀分布随机选择点 $x_m$,修正后的积分方案为:
[I_M = \frac{1}{M}\sum_{m = 1}^{M}\frac{f(x_m)}{p_1(x_m)}]
其中,$E(I_M)$ 的计算过程如下:
[
\begin{align }
E(I_M)&=\frac{1}{M}\sum_{m = 1}^{M}E\left[\frac{f(x_m)}{p_1(x_m)}\right]\
&=\frac{1}{M}\sum_{m = 1}^{M}\int_{0}^{1}\frac{f(x)}{p_1(x)}p_1(x)p_2(x)dx\
&=\frac{1}{M}\sum_{m = 1}^{M}\int_{0}^{1}f(x)dx\
&=\int_{0}^{1}f(x)dx = I
\end{align
}
]
因为 $p_2(x) = 1$。

接下来可以编写 MATLAB 程序计算不同 $K$ 值下的 $I_M$,步骤如下:
1. 使用 rand 函数选择子区间。
2. 在子区间内使用均匀分布确定 $x_m$ 的值。
3. 多次运行代码,找出 $I_M$ 与 $I$ 差值的概率密度。
4. 计算 $I_M$ 的均值和方差,并分析方差随 $M$ 的变化情况。

2. 常见概率分布
2.1 伯努利分布

伯努利试验的结果可分为成功和失败,成功概率为 $p$,失败概率为 $1 - p$。随机变量 $X$ 的概率质量函数为:
[p_X[x_k] = P(X = k) = p^k(1 - p)^{1 - k}, k = 0, 1]
累积密度函数为:
[F_X(x) =
\begin{cases}
0, & x < 0\
1 - p, & 0\leq x < 1\
1, & 1\leq x
\end{cases}
]
均值和方差分别为:
[\mu_X = E(X) = p]
[\sigma_X^2 = Var(X) = p(1 - p)]

例如,考试通过与否可建模为伯努利分布。若班级通过考试的概率为 $0.75$,设 $X$ 表示通过考试的随机变量,则 $E(X) = 0.75$,$Var(X) = 0.75\times(1 - 0.75) = 0.1875$。

2.2 几何分布

实验重复进行直到首次成功,随机变量 $X$ 表示首次成功的试验次数,其概率质量函数为:
[p_X[x_k] = P(X = k) = p(1 - p)^{k - 1}, k = 1, 2, 3, \cdots]
累积密度函数为:
[F_X(x) = P(X\leq x) = 1 - (1 - p)^k]
均值和方差分别为:
[\mu_X = E(X) = \frac{1}{p}]
[\sigma_X^2 = Var(X) = \frac{1 - p}{p^2}]

例如,粒子加速器中粒子击中目标材料的概率为 $0.01$,则:
- 第 50 个粒子首次击中目标的概率为 $0.01\times(0.99)^{49} = 0.0061$。
- 前 50 个粒子中任意一个击中目标的概率为 $\sum_{n = 1}^{50}0.01\times(0.99)^{n - 1} = 0.3950$。

2.3 二项分布

进行 $n$ 次独立的伯努利试验,随机变量 $X$ 表示成功的次数,其概率质量函数为:
[p_X[x_k] = P(X = k) = \binom{n}{k}p^k(1 - p)^{n - k}, k = 0, 1, \cdots, n]
其中,$\binom{n}{k} = \frac{n!}{k!(n - k)!}$ 为二项式系数。累积密度函数为:
[F_X(x) = \sum_{k = 0}^{n}\binom{n}{k}p^k(1 - p)^{n - k}, n\leq x < n + 1]
均值和方差分别为:
[\mu_X = E(X) = np]
[\sigma_X^2 = Var(X) = np(1 - p)]

例如,掷骰子 4 次,至少 3 次掷出同一面的概率计算如下:
设 $p = \frac{1}{6}$,则
[
\begin{align }
P(A)&=p_X[x_3] + p_X[x_4]\
&=\binom{4}{3}p^3(1 - p)^1 + \binom{4}{4}p^4(1 - p)^0\
&=\frac{4!}{3!1!}\times(\frac{1}{6})^3\times(1 - \frac{1}{6})^1 + \frac{4!}{4!0!}\times(\frac{1}{6})^4\times(1 - \frac{1}{6})^0\
&= 0.0162
\end{align
}
]

2.4 泊松分布

当 $n\to\infty$,$p\to0$ 且 $np$ 保持有限时,二项分布可近似为泊松分布。泊松分布的概率质量函数为:
[p_X[x_k] = P(X = k) = e^{-\lambda}\frac{\lambda^k}{k!}, k = 0, 1, \cdots]
累积密度函数为:
[F_X(x) = e^{-\lambda}\sum_{k = 0}^{n}\frac{\lambda^k}{k!}, n\leq x < n + 1]
均值和方差均为:
[\mu_X = E(X) = \lambda]
[\sigma_X^2 = Var(X) = \lambda]

例如,校园学生活动中心平均每分钟有 3 人进入,计算某一分钟内 3 人或更多人进入的概率。设 $\lambda = 3$,则:
[P(A) = 1 - (e^{-3}(\frac{3^0}{0!} + \frac{3^1}{1!} + \frac{3^2}{2!})) = 0.577]

2.5 均匀分布

连续随机变量 $X$ 的概率密度函数为:
[p_X(x) =
\begin{cases}
\frac{1}{b - a}, & a < x < b\
0, & \text{otherwise}
\end{cases}
]
累积密度函数为:
[F_X(x) =
\begin{cases}
0, & x\leq a\
\frac{x - a}{b - a}, & a < x < b\
1, & b\leq x
\end{cases}
]
均值和方差分别为:
[\mu_X = E(X) = \frac{1}{2}(a + b)]
[\sigma_X^2 = Var(X) = \frac{(b - a)^2}{12}]

2.6 指数分布

连续随机变量 $X$ 的概率密度函数为:
[p_X(x) =
\begin{cases}
\lambda e^{-\lambda x}, & x > 0\
0, & x < 0
\end{cases}
]
累积密度函数为:
[F_X(x) =
\begin{cases}
1 - e^{-\lambda x}, & x\geq 0\
0, & x < 0
\end{cases}
]
均值和方差分别为:
[\mu_X = E(X) = \frac{1}{\lambda}]
[\sigma_X^2 = Var(X) = \frac{1}{\lambda^2}]
指数分布具有“无记忆性”,即 $P(X > s + t|X > t) = P(X > s)$。

例如,某电子元件的故障时间服从指数分布,均值为 1000 小时,计算故障时间概率小于 $10^{-3}$ 的时间 $t$。
已知 $\lambda = 10^{-3}$,由 $F_X(t) = 1 - e^{-\lambda t} = 0.001$,可得 $t = -\frac{\ln(0.999)}{\lambda} = 1$ 小时。

2.7 正态分布

随机变量 $X$ 的概率密度函数为:
[p_X(x) = \frac{e^{-\frac{(x - \mu)^2}{2\sigma^2}}}{\sqrt{2\pi}\sigma}]
累积密度函数为:
[F_X(x) = \frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{x}e^{-\frac{(\xi - \mu)^2}{2\sigma^2}}d\xi = \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\frac{x - \mu}{\sigma}}e^{-\frac{\xi^2}{2}}d\xi]
引入概率积分 $\Phi(z) = \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{z}e^{-\frac{\xi^2}{2}}d\xi$,则 $F_X(x) = \Phi(\frac{x - \mu}{\sigma})$。

均值和方差分别为:
[\mu_X = E(X) = \mu]
[\sigma_X^2 = Var(X) = \sigma^2]
在均值 $\mu$ 周围 $\pm\sigma$、$\pm2\sigma$、$\pm3\sigma$ 区间内的概率分别约为 0.68、0.955、0.997。

3. 常见分布总结表格
分布名称 概率质量/密度函数 累积密度函数 均值 方差
伯努利分布 $p_X[x_k] = p^k(1 - p)^{1 - k}, k = 0, 1$ $F_X(x) = \begin{cases}0, & x < 0\1 - p, & 0\leq x < 1\1, & 1\leq x\end{cases}$ $p$ $p(1 - p)$
几何分布 $p_X[x_k] = p(1 - p)^{k - 1}, k = 1, 2, \cdots$ $F_X(x) = 1 - (1 - p)^k$ $\frac{1}{p}$ $\frac{1 - p}{p^2}$
二项分布 $p_X[x_k] = \binom{n}{k}p^k(1 - p)^{n - k}, k = 0, 1, \cdots, n$ $F_X(x) = \sum_{k = 0}^{n}\binom{n}{k}p^k(1 - p)^{n - k}, n\leq x < n + 1$ $np$ $np(1 - p)$
泊松分布 $p_X[x_k] = e^{-\lambda}\frac{\lambda^k}{k!}, k = 0, 1, \cdots$ $F_X(x) = e^{-\lambda}\sum_{k = 0}^{n}\frac{\lambda^k}{k!}, n\leq x < n + 1$ $\lambda$ $\lambda$
均匀分布 $p_X(x) = \begin{cases}\frac{1}{b - a}, & a < x < b\0, & \text{otherwise}\end{cases}$ $F_X(x) = \begin{cases}0, & x\leq a\\frac{x - a}{b - a}, & a < x < b\1, & b\leq x\end{cases}$ $\frac{1}{2}(a + b)$ $\frac{(b - a)^2}{12}$
指数分布 $p_X(x) = \begin{cases}\lambda e^{-\lambda x}, & x > 0\0, & x < 0\end{cases}$ $F_X(x) = \begin{cases}1 - e^{-\lambda x}, & x\geq 0\0, & x < 0\end{cases}$ $\frac{1}{\lambda}$ $\frac{1}{\lambda^2}$
正态分布 $p_X(x) = \frac{e^{-\frac{(x - \mu)^2}{2\sigma^2}}}{\sqrt{2\pi}\sigma}$ $F_X(x) = \Phi(\frac{x - \mu}{\sigma})$ $\mu$ $\sigma^2$
4. 蒙特卡罗积分计算流程图
graph TD;
    A[开始] --> B[选择子区间];
    B --> C[确定x_m的值];
    C --> D[计算I_M];
    D --> E{是否达到指定运行次数};
    E -- 否 --> B;
    E -- 是 --> F[计算概率密度、均值和方差];
    F --> G[分析方差随M的变化];
    G --> H[结束];

概率分布与联合分布的深入解析

5. 联合分布

前面介绍的是单随机变量的分布,接下来探讨两个随机变量的联合分布。二维随机变量 $(X, Y)$ 的取值范围为 $R_{XY} = {(x, y); \xi \in S \text{ 且 } X(\xi) = x, Y(\xi) = y}$。

5.1 离散联合分布

设 $X$ 和 $Y$ 是定义在同一样本空间的两个离散随机变量,$p_{XY}[x_i, y_j] = P[X = x_i, Y = y_j]$ 是 $X$ 和 $Y$ 的联合概率质量函数,满足 $p_{XY}[x_i, y_j] \geq 0$。
若 $X$ 和 $Y$ 可能取值的集合分别为 $A$ 和 $B$,当 $x_i \notin A$ 或 $y_j \notin B$ 时,$p_{XY}[x_i, y_j] = 0$,且 $\sum_{x_i \in A, y_j \in B}p_{XY}[x_i, y_j] = 1$。
$X$ 和 $Y$ 的边缘概率函数分别定义为:
[p_X[x_i] = \sum_{y_j \in B}p_{XY}[x_i, y_j]]
[p_Y[y_j] = \sum_{x_i \in A}p_{XY}[x_i, y_j]]
若 $X$ 和 $Y$ 是独立随机变量,则 $p_{XY}[x_i, y_j] = p_X[x_i] \cdot p_Y[y_j]$。

示例 :已知联合概率质量函数 $p_{XY}[x_i, y_j] =
\begin{cases}
k(x_i + 2y_j), & x_i = 1, 2, 3, y_j = 1, 2\
0, & \text{otherwise}
\end{cases}$
求 $k$,$p_X[x_i]$ 和 $p_Y[y_j]$ 的步骤如下:
1. 由 $\sum_{x_i = 1}^{3}\sum_{y_j = 1}^{2}k(x_i + 2y_j) = 1$,即 $k[(1 + 2) + (1 + 4) + (2 + 2) + (2 + 4) + (3 + 2) + (3 + 4)] = 1$,解得 $k = \frac{1}{30}$。
2. 计算 $p_X[x_i]$:
[p_X[x_i] = k\sum_{y_j = 1}^{2}(x_i + 2y_j) = k(x_i + 2) + k(x_i + 4) = k(2x_i + 6) = \frac{x_i + 3}{15}, x_i = 1, 2, 3]
3. 计算 $p_Y[y_j]$:
[p_Y[y_j] = k\sum_{x_i = 1}^{3}(x_i + 2y_j) = k(1 + 2y_j) + k(2 + 2y_j) + k(3 + 2y_j) = k(6 + 6y_j) = \frac{1 + y_j}{5}, y_j = 1, 2]

5.2 连续联合分布

对于两个连续随机变量,定义二维概率密度 $p_{XY}(x, y)$ 满足 $P(x < X \leq x + dx, y < Y \leq y + dy) = p_{XY}(x, y)dxdy$。
$p_{XY}(x, y)$ 是单值函数且 $p_{XY}(x, y) \geq 0$,同时 $\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}p_{XY}(x, y)dxdy = 1$。
$X$ 和 $Y$ 的联合分布函数为:
[F_{XY}(x, y) = P(X \leq x, Y \leq y) = \int_{-\infty}^{x}\int_{-\infty}^{y}p_{XY}(\xi, \eta)d\xi d\eta]
则 $P(a < X \leq b, c < Y \leq d) = \int_{a}^{b}\int_{c}^{d}p_{XY}(\xi, \eta)d\xi d\eta$。
$X$ 和 $Y$ 的边缘概率密度函数分别为:
[p_X(x) = \int_{-\infty}^{\infty}p_{XY}(x, y)dy]
[p_Y(y) = \int_{-\infty}^{\infty}p_{XY}(x, y)dx]
$X$ 和 $Y$ 独立的充要条件是 $p_{XY}(x, y) = p_X(x)p_Y(y)$。

示例 :已知联合概率密度函数 $p_{XY}(x, y) =
\begin{cases}
kxy, & 0 < y < x < 1\
0, & \text{otherwise}
\end{cases}$
1. 求 $k$ 的值:
[\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}p_{XY}(x, y)dxdy = k\int_{0}^{1}x\left(\int_{0}^{x}y dy\right)dx = k\int_{0}^{1}x\cdot\frac{y^2}{2}\big| {0}^{x}dx = \frac{k}{2}\int {0}^{1}x^3dx = \frac{k}{8}x^4\big| {0}^{1} = \frac{k}{8}]
由 $\frac{k}{8} = 1$,得 $k = 8$。
2. 判断 $X$ 和 $Y$ 是否独立:
- 计算 $p_X(x)$:$p_X(x) = 8x\int
{0}^{x}y dy = 4x^3, 0 < x < 1$;$p_X(x) = 0$(其他情况)。
- 计算 $p_Y(y)$:$p_Y(y) = 8y\int_{y}^{1}x dx = 4y(1 - y^2), 0 < y < 1$。
因为 $p_{XY}(x, y) \neq p_X(x)p_Y(y)$,所以 $X$ 和 $Y$ 不独立。

5.3 布丰投针问题

这是联合概率分布的经典应用。在无限平面上有一系列间距为 1 的平行直线,将长度为 $L < 1$ 的针向上投掷,计算针与其中一条直线相交的概率。
有两个随机变量决定针的位置:$X$ 是针下端到最近上方直线的距离,$X$ 在 $(0, 1)$ 上均匀分布,概率密度为 $p_X(x) =
\begin{cases}
1, & 0 \leq x \leq 1\
0, & \text{otherwise}
\end{cases}$;$\Theta$ 是针与垂直方向的夹角,在 $(-\frac{\pi}{2}, \frac{\pi}{2})$ 上均匀分布,概率密度为 $p_{\Theta}(\theta) =
\begin{cases}
\frac{1}{\pi}, & -\frac{\pi}{2} < \theta < \frac{\pi}{2}\
0, & \text{otherwise}
\end{cases}$。
所求概率 $p = P{X < L\cos(\Theta)}$,因为 $X$ 和 $\Theta$ 独立,所以 $p_{X\Theta}(x, \theta) = p_X(x)p_{\Theta}(\theta)$。
则 $p = \frac{1}{\pi}\int_{-\frac{\pi}{2}}^{\frac{\pi}{2}}\int_{0}^{L\cos(\theta)}dx d\theta = \frac{1}{\pi}\int_{-\frac{\pi}{2}}^{\frac{\pi}{2}}L\cos(\theta)d\theta = \frac{2L}{\pi}$。

6. 卷积

当 $X$ 和 $Y$ 是独立随机变量时,计算 $X + Y$ 的分布很重要。

对于连续随机变量,$X + Y$ 的累积分布函数为:
[G_{X + Y}(a) = P(x + y \leq a) = \int\int_{x + y \leq a}p_X(x)p_Y(y)dxdy = \int_{-\infty}^{\infty}\left(\int_{-\infty}^{a - y}p_X(x)dx\right)p_Y(y)dy = \int_{-\infty}^{\infty}F_X(a - y)p_Y(y)dy]
$X + Y$ 的概率密度函数为:
[p_{X + Y}(a) = \frac{d}{da}\left[\int_{-\infty}^{\infty}F_X(a - y)p_Y(y)dy\right] = \int_{-\infty}^{\infty}p_X(a - y)p_Y(y)dy]
对于离散随机变量,$p_{X + Y}[a_k] = \sum_{i = -\infty}^{\infty}p_X[x_i]p_Y[a_k - x_i]$。

7. 协方差与相关系数
7.1 协方差

之前介绍了随机变量 $X$ 的方差,用于衡量其分布的离散程度。对于两个联合分布的随机数,考虑 $Var(aX + bY)$ 来衡量它们在 $(ax + by)$ 方向的联合离散程度。
[Var(aX + bY) = a^2Var(X) + b^2Var(Y) + 2abE{[X - E(X)][Y - E(Y)]}]
其中 $E{[X - E(X)][Y - E(Y)]}$ 称为协方差,记为 $Cov(X, Y)$,即 $Cov(X, Y) = E{[X - E(X)][Y - E(Y)]}$。
另一种计算协方差的方法为:$Cov(X, Y) = E(XY) - E(X)E(Y)$,其中
[E(XY) =
\begin{cases}
\sum_{x_i \in A, y_j \in B}x_iy_j p_{XY}[x_i, y_j], & X \text{ 离散}\
\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}xy p_{XY}(x, y)dxdy, & X \text{ 连续}
\end{cases}]
协方差可以为正、负或零。若 $Cov(X, Y) > 0$,$X$ 和 $Y$ 正相关;若 $Cov(X, Y) < 0$,$X$ 和 $Y$ 负相关;若 $Cov(X, Y) = 0$,$X$ 和 $Y$ 不相关。

示例 :已知离散联合密度函数如下表:
| $x_i \backslash y_j$ | 0 | 1 | 2 | $p_Y[y_j]$ |
| ---- | ---- | ---- | ---- | ---- |
| 0 | $\frac{3}{28}$ | $\frac{9}{28}$ | $\frac{3}{28}$ | $\frac{15}{28}$ |
| 1 | $\frac{3}{14}$ | $\frac{3}{14}$ | 0 | $\frac{3}{7}$ |
| 2 | $\frac{1}{28}$ | 0 | 0 | $\frac{1}{28}$ |
| $p_X[x_i]$ | $\frac{5}{14}$ | $\frac{15}{28}$ | $\frac{3}{28}$ | |

计算可得:
(E(XY) = \sum_{i = 0}^{2}\sum_{j = 0}^{2}x_iy_j p_{XY}[x_i, y_j] = \frac{3}{14})
(\mu_X = E(X) = \sum_{i = 0}^{2}x_i p_X[x_i] = \frac{3}{4})
(\mu_Y = E(Y) = \sum_{j = 0}^{2}y_j p_Y[y_j] = \frac{1}{2})
则 (Cov(X, Y) = E(XY) - E(X)E(Y) = \frac{3}{14} - \frac{3}{4} \cdot \frac{1}{2} = -\frac{9}{56}),所以 $X$ 和 $Y$ 负相关。

7.2 相关系数

为了消除协方差对测量单位的依赖,引入相关系数。设 $X$ 和 $Y$ 是两个随机变量,且 $0 < \sigma_X^2 < \infty$,$0 < \sigma_Y^2 < \infty$,相关系数 $\rho(X, Y)$ 为:
[\rho(X, Y) = \frac{Cov(X, Y)}{\sigma_X\sigma_Y}]
且 $|\rho(X, Y)| \leq 1$。

8. 随机向量

可以将两个随机变量 $X$ 和 $Y$ 表示为二维随机向量 $V = (X \ Y)^T$,协方差可以写成 $2\times2$ 的协方差矩阵:
(\begin{pmatrix}
cov(X, X) & cov(X, Y)\
cov(Y, X) & cov(Y, Y)
\end{pmatrix})
这些概念可以推广到 $n$ 维随机向量。

9. 相关计算流程总结表格
计算内容 步骤
蒙特卡罗积分计算 $I_M$ 1. 使用 rand 函数选择子区间;2. 在子区间内用均匀分布确定 $x_m$ 值;3. 多次运行代码,找出 $I_M$ 与 $I$ 差值的概率密度;4. 计算 $I_M$ 均值和方差,分析方差随 $M$ 变化。
离散联合分布计算 1. 根据联合概率质量函数和条件求参数;2. 计算边缘概率函数;3. 判断变量是否独立。
连续联合分布计算 1. 根据积分求参数;2. 计算边缘概率密度函数;3. 判断变量是否独立。
协方差计算 1. 计算 $E(XY)$、$E(X)$ 和 $E(Y)$;2. 用公式 $Cov(X, Y) = E(XY) - E(X)E(Y)$ 计算协方差。
相关系数计算 1. 计算协方差 $Cov(X, Y)$;2. 计算标准差 $\sigma_X$ 和 $\sigma_Y$;3. 用公式 $\rho(X, Y) = \frac{Cov(X, Y)}{\sigma_X\sigma_Y}$ 计算相关系数。
10. 联合分布计算流程图
graph TD;
    A[开始] --> B{离散还是连续联合分布};
    B -- 离散 --> C[确定联合概率质量函数];
    B -- 连续 --> D[确定联合概率密度函数];
    C --> E[计算参数和边缘概率函数];
    D --> F[计算参数和边缘概率密度函数];
    E --> G{判断变量是否独立};
    F --> G;
    G -- 是 --> H[独立处理];
    G -- 否 --> I[非独立处理];
    H --> J[结束];
    I --> J;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值