主成分分析(Principal Components Analysis)的数学原理

博客围绕PCA展开,已知由m个点组成的集合,目标是寻找编码函数使目标函数最小。文中提出多个命题,如证明了f(x)=D⊺x、D*=argmaxDTr(D⊺X⊺XD)等,并对各命题进行了详细的推导与证明,还涉及PCA约束及相关定义。

已知:

  1. mm 个点组成的集合 S={x(1),,x(m)}Rn
  2. n>ln>l

目标:

寻找一个编码函数

f:nlf:Rn→Rl

和一个解码函数
g:lng:Rl→Rn

使得目标函数:

i=1mx(i)g(f(x(i)))2(1)(1)∑i=1m‖x(i)−g(f(x(i)))‖2

最小。

PCA 约束:

cl,g(c)=Dc(2)(2)∀c∈Rl,g(c)=Dc

其中 D=(d1,,dl)D=(d1,⋯,dl)n×ln×l 维矩阵,且
DD=Il(3)(3)D⊺D=Il

分析

本质上是要求解两个问题:
1. D∀D,求函数 ff 使得目标函数最小。即 xS,D, 若存在一个 c*l,c*∈Rl, 使得 xg(c*)‖x−g(c*)‖ 最小,则 f(x)=c*f(x)=c* 。因此

f(x)=argmincxg(c)(4)(4)f(x)=argminc‖x−g(c)‖

2. 矩阵 D*D* 使得目标函数最小 。

命题 1

xS,D,f(x)=Dx∀x∈S,∀D,f(x)=D⊺x

证明

xS,cl,∀x∈S,∀c∈Rl,
xg(c)2‖x−g(c)‖2
=[xg(c)][xg(c)]=[x−g(c)]⊺[x−g(c)]
=[xg(c)][xg(c)]=[x⊺−g(c)⊺][x−g(c)]
=xxg(c)xxg(c)+g(c)g(c)=x⊺x−g(c)⊺x−x⊺g(c)+g(c)⊺g(c)
由于xg(c),x⊺g(c)∈R, 因此 g(c)x=xg(c),g(c)⊺x=x⊺g(c), 因此
上式 =xx2xg(c)+g(c)g(c)=x⊺x−2x⊺g(c)+g(c)⊺g(c)
由于第一项 xxx⊺x 不依赖于 cc ,且由 (4),
f(x)=argminc2xg(c)+g(c)g(c)f(x)=argminc−2x⊺g(c)+g(c)⊺g(c)
将 (2) 代入,得
f(x)=argminc2xDc+(Dc)(Dc)f(x)=argminc−2x⊺Dc+(Dc)⊺(Dc)
=argminc2xDc+cDDc=argminc−2x⊺Dc+c⊺D⊺Dc
将 (3)代入,得
f(x)=argminc2xDc+cIlcf(x)=argminc−2x⊺Dc+c⊺Ilc
=argminc2xDc+cc=argminc−2x⊺Dc+c⊺c
令梯度为 0⃗ 0→ ,则
c(2xDc+cc)=2Dx+2c=0⃗ ∇c(−2x⊺Dc+c⊺c)=−2D⊺x+2c=0→
c=Dxc=D⊺x
于是 f(x)=Dxf(x)=D⊺x

命题 2

xS,D,g(f(x))=DDx∀x∈S,∀D,g(f(x))=DD⊺x

命题 3

X=(x(1),,x(m)),X=(x(1),⋯,x(m))⊺,
D*=argmaxDTr(DXXD)D*=argmaxDTr⁡(D⊺X⊺XD)

证明

xS,D,∀x∈S,∀D,
xg(f(x))2‖x−g(f(x))‖2
=xDDx2=‖x−DD⊺x‖2
=(InDD)x2=‖(In−DD⊺)x‖2
=[(InDD)x][(InDD)x]=[(In−DD⊺)x]⊺[(In−DD⊺)x]
=x(InDD)(InDD)x=x⊺(In−DD⊺)⊺(In−DD⊺)x
=x(InDD)(InDD)x=x⊺(In−DD⊺)(In−DD⊺)x
=x(In2DD+DDDD)x=x⊺(In−2DD⊺+DD⊺DD⊺)x
=x(In2DD+DD)x=x⊺(In−2DD⊺+DD⊺)x
=x(InDD)x=x⊺(In−DD⊺)x
=xxxDDx=x⊺x−x⊺DD⊺x
因此目标函数
mi=1x(i)g(f(x(i)))2∑i=1m‖x(i)−g(f(x(i)))‖2
=mi=1[(x(i))x(i)(x(i))DDx(i)]=∑i=1m[(x(i))⊺x(i)−(x(i))⊺DD⊺x(i)]
=mi=1(x(i))x(i)mi=1(x(i))DDx(i)=∑i=1m(x(i))⊺x(i)−∑i=1m(x(i))⊺DD⊺x(i)
由于第一项 mi=1(x(i))x(i)∑i=1m(x(i))⊺x(i) 不依赖于 DD ,因此
D*=argmaxDmi=1(x(i))DDx(i)D*=argmaxD∑i=1m(x(i))⊺DD⊺x(i)
由于
mi=1(x(i))DDx(i)∑i=1m(x(i))⊺DD⊺x(i)
=Tr(XDDX)=Tr⁡(XDD⊺X⊺)
=Tr(XXDD)=Tr⁡(X⊺XDD⊺)
=Tr(DXXD)=Tr⁡(D⊺X⊺XD)
因此
D*=argmaxDTr(DXXD)D*=argmaxDTr⁡(D⊺X⊺XD)

命题 4

设半正定矩阵 XXX⊺X 的前 ll 个最大的特征向量(从大到小排列)为 λ1,,λl ,则
1. Tr(DXXD)li=1λiTr⁡(D⊺X⊺XD)≤∑i=1lλi
2. didi 为属于 λiλi 的特征向量时等号成立。

证明

由于 XXX⊺X 是半正定的实对称矩阵,因此存在对角线矩阵
Λ=λ1,λn,Λ=(λ1,⋱λn), 其中 {λi}{λi} 单调不增,即 λiλj,1ijnλi≥λj,1≤i≤j≤n
存在正交矩阵 Pn×nPn×n, 使得
XX=PΛPX⊺X=PΛP⊺
于是
DXXD=DPΛPD=QΛQD⊺X⊺XD=D⊺PΛP⊺D=Q⊺ΛQ
其中 Q=(qij)n×l=PDQ=(qij)n×l=P⊺D
于是 QQ=(PD)PD=DPPD=IlQ⊺Q=(P⊺D)⊺P⊺D=D⊺PP⊺D=Il
Tr(DXXD)=Tr(QΛQ)Tr⁡(D⊺X⊺XD)=Tr⁡(Q⊺ΛQ)
=ni=1lj=1λiqij2=∑i=1n∑j=1lλiqij2
=ni=1λi(lj=1qij2)=∑i=1nλi(∑j=1lqij2)
由于 QQ=IlQ⊺Q=Il ,因此
ni=1qij2=1,1jn∑i=1nqij2=1,1≤j≤n
因此 ni=1(lj=1qij2)=lj=1ni=1λiqij2=l∑i=1n(∑j=1lqij2)=∑j=1l∑i=1nλiqij2=l
由于 QQll 个列向量可以扩展成 nnn 维的标准正交基,因此 Q 的行向量长度小于等于 11 ,即 j=1lqij21,1in
又由于 {λi}{λi} 单调不增,
因此 ni=1λi(lj=1qij2)li=1λi∑i=1nλi(∑j=1lqij2)≤∑i=1lλi
因此 Tr(DXXD)li=1λiTr⁡(D⊺X⊺XD)≤∑i=1lλi
特别的,当 qij=δijqij=δij ,即 Q=(Il0)Q=(Il0) 时,
ni=1λi(lj=1qij2)=li=1λi∑i=1nλi(∑j=1lqij2)=∑i=1lλi
此时 D=PQ=(p1,,pl)D=PQ=(p1,⋯,pl) 即为 PP 的前 ll 列组成的矩阵,即 di 为属于 λiλi 的特征向量。

定义

添加约束:

xn,g(x)=Dx(5)(5)∀x∈Rn,g(x)=D⊺x

Y=(y1,,yl)=XD=f(x(1))f(x(m)),Y=(y1,⋯,yl)=XD=(f(x(1))⊺⋮f(x(m))⊺),
yiyiYY 的第 ii主成分
称:
Percentage of total variation retained = VarYVarX

命题 5

D*=argmaxDVarYD*=argmaxDVar⁡Y

证明

VarY=Tr(YY)=Tr(DXXD)Var⁡Y=Tr⁡(Y⊺Y)=Tr⁡(D⊺X⊺XD)
因此 argmaxDVarY=argmaxDTr(DXXD)argmaxDVar⁡Y=argmaxDTr⁡(D⊺X⊺XD)
由命题3, D*=argmaxDVarYD*=argmaxDVar⁡Y

命题 6

VarYVarXi=1lλii=1nλiVar⁡YVar⁡X≤∑i=1lλi∑i=1nλi

命题 7

didi 为属于 λiλi 的特征向量时, yiyj=λjδijyi⊺yj=λjδij

证明

yi=Xdi,1ilyi=Xdi,1≤i≤l
于是 yiyj=(Xdi)Xdj=diXXdjyi⊺yj=(Xdi)⊺Xdj=di⊺X⊺Xdj
didi 为属于 λiλi 的特征向量时,
diXXdj=λjdidj=λjδijdi⊺X⊺Xdj=λjdi⊺dj=λjδij
因此 yiyj=λjδijyi⊺yj=λjδij

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值