83、概率与随机变量变换的深入解析

概率与随机变量变换解析

最新推荐文章于 2025-11-17 14:39:31 发布

time3

最新推荐文章于 2025-11-17 14:39:31 发布

阅读量37

点赞数

CC 4.0 BY-SA版权

分类专栏：概率机器学习入门精要文章标签：相关系数协方差虚假相关性

本文链接：https://blog.youkuaiyun.com/time3/article/details/151315541

概率机器学习入门精要专栏收录该内容

91 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

概率与随机变量变换的深入解析

1. 相关性分析

1.1 相关系数的定义

协方差的取值范围是负无穷到正无穷，有时使用具有有限上下界的归一化度量会更方便。Pearson相关系数定义为：
[ corr [X, Y ] \triangleq \frac{Cov [X, Y ]}{\sqrt{V [X] V [Y ]}} ]
可以证明，(-1 \leq corr [X, Y ] \leq 1)。并且，当且仅当 (Y = aX + b)（其中 (a) 和 (b) 为参数），即 (X) 和 (Y) 存在线性关系时，(corr [X, Y ] = 1)。

1.2 相关矩阵

对于相关随机变量的向量 (x)，相关矩阵定义如下：
[ corr(x) =
\begin{pmatrix}
1 & \frac{E[(X_1-\mu_1)(X_2-\mu_2)]}{\sigma_1\sigma_2} & \cdots & \frac{E[(X_1-\mu_1)(X_D-\mu_D)]}{\sigma_1\sigma_D} \
\frac{E[(X_2-\mu_2)(X_1-\mu_1)]}{\sigma_2\sigma_1} & 1 & \cdots & \frac{E[(X_2-\mu_2)(X_D-\mu_D)]}{\sigma_2\sigma_D} \
\vdots & \vdots & \ddots & \vdots \
\frac{E[(X_D-\mu_D)(X_1-\mu_1)]}{\sigma_D\sigma_1} & \frac{E[(X_D-\mu_D)(X_2-\mu_2)]}{\sigma_D\sigma_2} & \cdots & 1
\end{pmatrix} ]
也可更紧凑地表示为：
[ corr(x) = (diag(K_{xx}))^{-\frac{1}{2}} K_{xx}(diag(K_{xx}))^{-\frac{1}{2}} ]
其中，(K_{xx}) 是自协方差矩阵：
[ K_{xx} = \Sigma = E[(x - E [x])(x - E [x])^T] = R_{xx} - \mu\mu^T ]
(R_{xx} = E[xx^T]) 是自相关矩阵。

1.3 虚假相关性示例

相关性并不总是意味着因果关系，存在许多虚假相关性的例子：
- 冰淇淋消费与美国谋杀率 ：冰淇淋的销售量和美国的谋杀率之间存在很强的相关性，但这只是虚假相关，真正的原因是天气炎热，既增加了冰淇淋的销售，也可能导致暴力犯罪增加。
- 缅因州离婚率与人造黄油消费 ：缅因州的离婚率与美国人造黄油的人均消费量有很强的相关性，但这很可能不是一个稳健的结果，可能是由于隐藏因素导致的。

1.4 相关性与独立性

如果 (X) 和 (Y) 相互独立，即 (p(X, Y ) = p(X)p(Y ))，那么 (Cov [X, Y ] = 0)，从而 (corr [X, Y ] = 0)，即独立意味着不相关。然而，反之不成立，不相关并不意味着独立。例如，设 (X \sim U(-1, 1)) 且 (Y = X^2)，显然 (Y) 依赖于 (X)，但可以证明 (corr [X, Y ] = 0)。

1.5 辛普森悖论

辛普森悖论指出，在几个不同的数据组中出现的统计趋势或关系，在这些组合并时可能会消失或改变符号。例如，在COVID - 19数据中，意大利每个年龄组的病例死亡率（CFR）低于中国，但总体上却更高，原因是意大利有更多的老年人。

2. 随机变量的变换

2.1 离散情况

如果 (X) 是离散随机变量，可以通过对所有满足 (f(x) = y) 的 (x) 的概率质量求和来推导 (Y) 的概率质量函数（pmf）：
[ p_Y(y) = \sum_{x:f(x)=y} p_X(x) ]
例如，若 (f(X) = 1) 当 (X) 为偶数，否则 (f(X) = 0)，且 (p_X(X)) 在集合 ({1, \cdots, 10}) 上均匀分布，则 (p_Y(1) = \sum_{x\in{2,4,6,8,10}} p_X(x) = 0.5)，因此 (p_Y(0) = 0.5)。

2.2 连续情况

如果 (X) 是连续随机变量，由于 (p_X(x)) 是概率密度函数（pdf）而不是pmf，不能直接求和。我们通过累积分布函数（cdf）来计算：
[ P_Y(y) \triangleq Pr(Y \leq y) = Pr(f(X) \leq y) = Pr(X \in {x|f(x) \leq y}) ]
如果 (f) 是可逆的，可以通过对cdf求导来推导 (y) 的pdf；如果 (f) 不可逆，可以使用数值积分或蒙特卡罗近似。

2.3 可逆变换

2.3.1 标量情况

假设 (x \sim Unif(0, 1))，且 (y = f(x) = 2x + 1)。对于任意 (p_X(x)) 和单调函数 (f: R \to R)，设 (g = f^{-1})，则 (y = f(x)) 且 (x = g(y))。通过一系列推导可得：
[ p_Y(y) = p_X (g(y)) \left| \frac{d}{dy} g(y) \right| ]
这就是变量变换公式。

2.3.2 多元情况

对于可逆函数 (f) 从 (R^n) 映射到 (R^n)，其逆为 (g)，若要计算 (y = f(x)) 的pdf，则有：
[ p_Y(y) = p_X (g(y)) \left| \det [J_g(y)] \right| ]
其中 (J_g = \frac{dg(y)}{dy^T}) 是 (g) 的雅可比矩阵。

2.4 线性变换的矩

假设 (f) 是仿射函数，即 (y = Ax + b)，可以轻松推导 (y) 的均值和协方差：
- 均值：(E [y] = E [Ax + b] = A\mu + b)，其中 (\mu = E [x])。
- 协方差 ：(Cov [y] = Cov [Ax + b] = A\Sigma A^T)，其中 (\Sigma = Cov [x])。

2.5 卷积定理

设 (y = x_1 + x_2)，其中 (x_1) 和 (x_2) 是独立随机变量。
- 离散情况 ：
[ p(y = j) = \sum_{k} p(x_1 = j)p(x_2 = j - k) ]
- 连续情况 ：
[ p(y) = \int p_1(x_1)p_2(y - x_1)dx_1 ]
可以写成 (p = p_1 \circledast p_2)，其中 (\circledast) 表示卷积运算符。例如，掷两个骰子，(p_1) 和 (p_2) 都是在 ({1, 2, \cdots, 6}) 上的离散均匀分布，(y = x_1 + x_2) 是两个骰子的和，可计算出 (y) 取不同值的概率。对于两个高斯随机变量 (x_1 \sim N(\mu_1, \sigma_1^2)) 和 (x_2 \sim N(\mu_2, \sigma_2^2))，它们的和 (y = x_1 + x_2) 也是高斯分布，即 (p(y) = N(y|\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2))。

2.6 中心极限定理

考虑 (N) 个具有概率密度函数 (p_n(x))（不一定是高斯分布）的随机变量，每个变量的均值为 (\mu)，方差为 (\sigma^2)，且相互独立同分布（iid）。设 (S_N = \sum_{n = 1}^{N} X_n) 是这些随机变量的和，当 (N \to \infty) 时，其分布趋向于高斯分布。

3. 总结

本文详细介绍了相关性分析和随机变量变换的相关知识，包括相关系数的定义、相关矩阵、虚假相关性、独立性与相关性的关系、辛普森悖论，以及随机变量在离散和连续情况下的变换、线性变换的矩、卷积定理和中心极限定理。这些知识在概率统计和机器学习等领域具有重要的应用价值。

概念	描述
相关系数	( corr [X, Y ] \triangleq \frac{Cov [X, Y ]}{\sqrt{V [X] V [Y ]}} )，衡量线性关系的程度
相关矩阵	描述多个随机变量之间的相关性
虚假相关性	相关性不意味着因果关系
辛普森悖论	合并数据组时统计趋势可能改变
变量变换	包括离散和连续情况，有相应的计算方法
卷积定理	用于计算独立随机变量和的分布
中心极限定理	独立同分布随机变量和的分布趋向于高斯分布

graph LR
    A[相关性分析] --> B[相关系数]
    A --> C[相关矩阵]
    A --> D[虚假相关性]
    A --> E[独立性与相关性]
    A --> F[辛普森悖论]
    G[随机变量变换] --> H[离散情况]
    G --> I[连续情况]
    G --> J[可逆变换]
    G --> K[线性变换的矩]
    G --> L[卷积定理]
    G --> M[中心极限定理]

4. 相关性分析的深入探讨

4.1 相关系数的性质

相关系数 (corr [X, Y ]) 具有以下重要性质：
- 取值范围 ：(-1 \leq corr [X, Y ] \leq 1)。当 (corr [X, Y ] = 1) 时，(X) 和 (Y) 存在完全正线性关系，即 (Y = aX + b) 且 (a>0)；当 (corr [X, Y ] = -1) 时，存在完全负线性关系，即 (Y = aX + b) 且 (a<0)；当 (corr [X, Y ] = 0) 时，(X) 和 (Y) 不具有线性关系，但可能存在其他类型的关系。
- 对称性 ：(corr [X, Y ] = corr [Y, X ])，这表明相关系数衡量的是 (X) 和 (Y) 之间的线性关联程度，与变量的顺序无关。

4.2 相关矩阵的特点

相关矩阵 (corr(x)) 是一个对称矩阵，其对角线上的元素都为 1，因为每个随机变量与自身的相关系数为 1。相关矩阵可以帮助我们直观地了解多个随机变量之间的相关性结构。例如，在一个包含多个特征的数据集里，相关矩阵可以揭示哪些特征之间存在较强的线性关系，这对于特征选择和降维等操作具有重要意义。

4.3 虚假相关性的识别

识别虚假相关性是数据分析中的一个重要任务。以下是一些识别方法：
- 背景知识 ：结合领域知识和实际情况，判断两个变量之间的相关性是否合理。例如，冰淇淋消费和谋杀率之间的相关性，从常识来看，两者之间不太可能存在直接的因果关系，很可能是受到其他因素（如天气）的影响。
- 因果分析 ：尝试找出可能的因果机制。如果无法找到合理的因果路径，那么相关性很可能是虚假的。
- 控制变量 ：引入其他可能影响结果的变量进行控制，观察相关性是否依然存在。如果在控制了某些变量后，相关性消失，那么原有的相关性可能是虚假的。

4.4 独立性与相关性的进一步理解

独立性和相关性是两个不同的概念，它们之间的关系可以通过以下表格进一步说明：
|关系|定义|特点|
|----|----|----|
|独立|(p(X, Y ) = p(X)p(Y ))|意味着变量之间没有任何依赖关系，包括线性和非线性关系|
|不相关|(corr [X, Y ] = 0)|仅表示变量之间不存在线性关系，但可能存在非线性关系|

4.5 辛普森悖论的影响

辛普森悖论可能会导致对数据的错误解读。在实际应用中，我们需要仔细分析数据的分组情况，避免因合并数据而得出错误的结论。例如，在医学研究中，如果不考虑患者的年龄、性别等因素，直接比较不同治疗方法的总体疗效，可能会得出错误的结果。

graph LR
    A[相关系数性质] --> B[取值范围]
    A --> C[对称性]
    D[相关矩阵特点] --> E[对称矩阵]
    D --> F[对角线为1]
    G[虚假相关性识别] --> H[背景知识]
    G --> I[因果分析]
    G --> J[控制变量]
    K[独立性与相关性] --> L[独立定义]
    K --> M[不相关定义]
    N[辛普森悖论影响] --> O[错误解读数据]

5. 随机变量变换的应用实例

5.1 离散随机变量变换的应用

在实际问题中，离散随机变量变换经常用于简化问题或进行概率计算。例如，在一个抽奖活动中，设 (X) 表示抽奖的结果（(X = 1) 表示中奖，(X = 0) 表示未中奖），(p_X(1) = 0.1)，(p_X(0) = 0.9)。现在定义 (Y = 10X)，表示中奖获得的奖金。那么 (p_Y(10) = p_X(1) = 0.1)，(p_Y(0) = p_X(0) = 0.9)。通过这种变换，我们可以更方便地计算奖金的概率分布。

5.2 连续随机变量变换的应用

连续随机变量变换在信号处理、图像处理等领域有广泛应用。例如，在图像处理中，经常需要对图像的像素值进行变换。设 (X) 表示原始图像的像素值，(Y = f(X)) 表示经过变换后的像素值。通过合适的变换函数 (f)，可以实现图像的增强、滤波等操作。

5.3 可逆变换的应用

可逆变换在坐标变换、数据标准化等方面具有重要作用。例如，在极坐标和直角坐标的转换中，设 (x = r \cos \theta)，(y = r \sin \theta)，这是一个可逆变换。通过这种变换，可以将在直角坐标系中复杂的问题转化为在极坐标系中更容易处理的问题。

5.4 线性变换的矩在投资组合中的应用

在投资组合理论中，线性变换的矩可以用于计算投资组合的预期收益和风险。设 (x) 表示不同资产的收益率向量，(y = Ax + b) 表示投资组合的收益率，其中 (A) 是资产的权重矩阵，(b) 是常数项。通过计算 (E [y]) 和 (Cov [y])，可以评估投资组合的预期收益和风险，从而进行合理的投资决策。

5.5 卷积定理在信号处理中的应用

在信号处理中，卷积定理用于计算两个信号的卷积。例如，在图像处理中，图像的滤波操作可以通过卷积来实现。设 (p_1(x_1)) 和 (p_2(x_2)) 分别表示原始图像和滤波器的信号，通过计算它们的卷积 (p = p_1 \circledast p_2)，可以得到滤波后的图像。

5.6 中心极限定理在抽样中的应用

中心极限定理在抽样统计中具有重要意义。在实际抽样中，我们通常无法获取总体的全部信息，只能通过抽取样本进行估计。根据中心极限定理，当样本量足够大时，样本均值的分布近似服从高斯分布。这使得我们可以利用高斯分布的性质进行区间估计和假设检验等统计推断。

应用领域	随机变量变换类型	具体应用
抽奖活动	离散随机变量变换	计算奖金的概率分布
图像处理	连续随机变量变换	图像增强、滤波
坐标转换	可逆变换	极坐标和直角坐标的转换
投资组合	线性变换的矩	评估投资组合的预期收益和风险
信号处理	卷积定理	图像滤波
抽样统计	中心极限定理	区间估计和假设检验

graph LR
    A[离散随机变量变换] --> B[抽奖活动]
    C[连续随机变量变换] --> D[图像处理]
    E[可逆变换] --> F[坐标转换]
    G[线性变换的矩] --> H[投资组合]
    I[卷积定理] --> J[信号处理]
    K[中心极限定理] --> L[抽样统计]