在处理实际问题中,在很多情况下,不同指标之间可能存在一定的相关性,即变量反映样本的信息有一定重叠
由于指标较多再加上信息的重叠,势必增加了问题的复杂性
希望通过克服相关性、重叠性,用较少的变量代替原来较多的变量,而这些较少的变量可以反映原来众多变量的大部分信息,这实际上是一种降维的思想
主成分分析
主成分分析是一种通过降维技术将多个变量化为少数几个主成分的统计分析方法。这些主成分通常表示为原始变量的某种线性组合,能够反映原始变量的绝大部分信息
主成分分析在几何上是一个坐标转换,在二维空间中有明显的几何意义
示例
假设共有n个样品,每个样品有两个指标x1,x2x_{1},x_{2}x1,x2,在坐标系中,这n个点沿x1x_{1}x1和x2x_{2}x2方向都有较大的分量,若仅考虑其中一个分量,包含在另一分量中的信息将会损失,因此直接舍弃某个分量不是降维的有效方法
若将该坐标系按逆时针方向旋转某个角度θ\thetaθ编程新坐标系,变换公式为
{
Y1=X1cosθ+X2sinθY2=−X1sinθ+X2cosθ \left\{\begin{matrix} Y_{1}=X_{1}\cos \theta+X_{2}\sin \theta \\ Y_{2}=-X_{1}\sin \theta+X_{2}\cos \theta \end{matrix}\right. {
Y1=X1cosθ+X2sinθY2=−X1sinθ+X2cosθ
![![[Pasted image 20240815163557.png]]](https://i-blog.csdnimg.cn/direct/e275c136dfc94618937d6b4b235203a3.png)
总体主成分的数学模型
设X=(X1,X2,…,XP)TX=(X_{1},X_{2},\dots,X_{P})^{T}X=(X1,X2,…,XP)T为P维随机向量
cov(X)=∑=(σij)p×p=E[(X−E(x))(X−E(x))T] cov(X)=\sum=(\sigma_{ij})_{p\times p}=E[(X-E(x))(X-E(x))^{T}] cov(X)=∑=(σij)p×p=E[(X−E(x))(X−E(x))T]
为其协方差矩阵,是非负定矩阵
构造的线性组合
Y1=a1TX=a11X1+a12X2+⋯+a1pXp Y_{1}=a_{1}^{T}X=a_{11}X_{1}+a_{12}X_{2}+\dots+a_{1p}X_{p} Y1=a1TX=a11X1+a12X2+⋯+a1pXp
确定
a1=(a11,a12,…,a1p)T a_{1}=(a_{11},a_{12},\dots,a_{1p})^{T} a1=(a11,a12,…,a1p)T
Var(Y1)=Cov(a1TX,a1TX)=a1T∑a1 Var(Y_{1})=Cov(a_{1}^{T}X,a_{1}^{T}X)=a_{1}^{T}\sum a_{1} Var(Y1)=Cov(a1TX,a1TX)=a1T∑a1
使得Var(Y1)Var(Y_{1})Var(Y1)达到最大
- 必须对a1a_{1}a1加以限制,否则Var(Y1)Var(Y_{1})Var(Y1)无界。如a1Ta1=1a_{1}^{T}a_{1}=1a1Ta1=1
如此确定的随机变量Y1=a1TXY_{1}=a_{1}^{T}XY1=a1TX称为X的第一主成分
如果第一主成分在Y1Y_{1}Y1方向上的分散性还不足以反映原变量的分散性
则构造
Y2=a2TX=a21X1+a22X2+⋯+a2pXp Y_{2}=a_{2}^{T}X=a_{21}X_{1}+a_{22}X_{2}+\dots+a_{2p}X_{p} Y2=a2TX=a21X1+a22X2+⋯+a2pXp
限制a2Ta2=1a_{2}^{T}a_{2}=1a2Ta2=1
满足
Cov(Y1,Y2)=Cov(a1TX,a2TX)=a1T∑a2=0 Cov(Y_{1},Y_{2})=Cov(a_{1}^{T}X,a_{2}^{T}X)=a_{1}^{T}\sum a_{2}=0 Cov(Y1,Y2)=Cov(a1TX,a2TX)=a1T∑a2=0
a2a_{2}a2的模是1,Y1,Y2Y_{1},Y_{2}Y1,Y2不相关
使得Var(Y2)Var(Y_{2})Var(Y2)达到最大
如此确定的随机变量Y2Y_{2}Y2称为XXX的第二主成分
一般地Y1,Y2,…,Yk−1Y_{1},Y_{2},\dots,Y_{k-1}Y1,Y2,…,Yk−1还不足以反映原变量的信息
则构造
Yk=akTX=ak1TX1+ak2TX2+⋯+akpXp Y_{k}=a_{k}^{T}X=a_{k1}^{T}X_{1}+a_{k2}^{T}X_{2}+\dots+a_{kp}X_{p} Yk=akTX=ak1TX1+ak2TX2+⋯+akpXp
限制akTak=1a_{k}^{T}a_{k}=1akTak=1
Cov(Yk,Yi)=Cov(akTX,aiTX)=akT∑ai=0(i=1,2,…,k−1) Cov(Y_{k},Y_{i})=Cov(a_{k}^{T}X,a_{i}^{T}X)=a_{k}^{T}\sum a_{i}=0(i=1,2,\dots,k-1) Cov(Yk,Yi)=Cov(akTX,aiTX)=akT∑ai=0(i=1,2,…,k−1)
使得Var(Yk)Var(Y_{k})Var(Yk)达到最大
如此确定的随机变量YkY_{k}Yk称为X的第k主成分
按照上述方法,最多可以构造出p个方差大于0的主成分
总体主成分的求法
∑\sum∑是X=(X1,X2,…,Xp)TX=(X_{1},X_{2},\dots,X_{p})^{T}X=(X1,X2,…,Xp)T的协方差矩阵,其特征值按大小顺序排列为λ1≥λ2≥⋯≥λp≥0\lambda_{1}\ge \lambda_{2}\ge \dots \ge \lambda_{p} \ge 0λ1≥λ2≥⋯≥λp≥0,相应的正交单位化特征向量为e1,e2,…,epe_{1},e_{2},\dots,e_{p}e1,e2,…,ep,则X的第k个主成分为
Yk=ekTX=ek1X1+ek2X2+⋯+ekpXp Y_{k}=e_{k}^{T}X=e_{k1}X_{1}+e_{k2}X_{2}+\dots+e_{kp}X_{p} Yk=ekTX=ek1X1+ek2X2+⋯+ekp

最低0.47元/天 解锁文章
5937

被折叠的 条评论
为什么被折叠?



