典型相关分析（Canonical Correlation Analysis, CCA)

最新推荐文章于 2023-07-19 11:21:13 发布

原创最新推荐文章于 2023-07-19 11:21:13 发布 · 3.6k 阅读

11 ·

CC 4.0 BY-SA版权

本文深入探讨了典型相关分析，这是一种用于探索两个来自同一个体的向量间关联关系的方法。通过定义典型变量对，分析健康与锻炼等复杂关系，介绍了协方差与相关系数的基本概念，以及如何通过最大化相关性来寻找最优线性组合。

文章目录

一什么是典型相关分析

用来探索两个向量之间的关联关系的，这两个向量来自于同一个个体。比如说，我们需要判定健康和锻炼的关系，一方面观察身体指标如血压血脂作为健康的指标，另一方面观察跑步速度等作为锻炼的指标。然后观察二者的关联关系，分析健康与锻炼有何关系。

二基本概念

1 典型变量（Canonical Variates)

首先，两个变量集合X和Y：
在这里插入图片描述
接着，定义两个线性关系的集合U和V，其中U是X的线性组合，V是Y的线性组合：

其中，U为p行p列（X为p列，对每一维都线性组合），V为p行q列（Y为q列，对每一维都线性组合），至于都是p行，是为了形成典型变量对。

典型变量对（canonical variate pair)：
在这里插入图片描述
显然，典型变量对共有p对（p ≤ q），比如，（U₂, V₂) = (a₂₁X₁ + a₂₂X₂ + ··· + a_2pX_p， b₂₁Y₁ + b₂₂Y₂ + ··· + b_2qY_q)

2 补充概念

（1）协方差：

期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为：

在这里插入图片描述
如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值；如果两个变量的变化趋势相反，即其中一个变量大于自身的期望值时另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值；如果X与Y是统计独立的，那么二者之间的协方差就是0，因为两个独立的随机变量满足E[XY] = E[X]E[Y]，但是注意反过来并不一定成立，协方差为0时并不一定相互独立，但称协方差为0的两个随机变量不相关。