Kernel PCA
将样本空间推广到一般情况,借助从样本空间到特征Hilbert空间的特征映射,解决样本空间本身没有内积的情况。设K:X×X→C为核函数,W为特征Hilbert空间,Φ:X→W为特征映射。对给定的核函数K,特征对(W,Φ)不具有唯一性(即PCA一文中对同一核函数的不同坐标表示),故在利用特征空间内积的同时要注意尽量得出只依赖核函数K的结论。稍后证明,在核矩阵关于最大谱的特征空间维数为1时,Kernel PCA的表示结果与特征对(样本空间坐标架)选取无关,此称kernel trick。
按照PCA的几何解释,我们在特征空间W中寻求样本点的特征{Φ(xi)}Ni=1⊂W的一维流形拟合。得模型
argmaxu∈W∥u∥=1∑i=1n∣∣⟨Φ~(xi),u⟩W∣∣2,
其中Φ~(xi)=Φ(xi)−1n∑nj=1Φ(xj)。记有界线性算子
T:W→Cn:u↦(⟨Φ~(xi),u⟩W)ni=1,
则问题转为
argmaxu∈W∥u∥=1⟨T∗Tu,u⟩W.
谱分解与谱分解表示
此时
T∗:Cn→W:(vi)ni=1↦∑i=1nvi¯¯¯Φ~(xi),
T∗T:W→W:u↦∑i=1n⟨u,Φ~(xi)⟩WΦ~(xi).
显然自伴随算子T∗T∈B00(W)⊂B0(W),从而其有谱分解
T∗Tu=∑i=1pλi⟨u,ui⟩Wui,
其中p≤n,{λi}pi=1⊂R++为单调下降的正特征值,{ui}pi=1⊂W为对应单位正交特征向量。
将谱分解代回模型立得解u∗=u1,即span{u1}为W上最佳拟合中心化后样本特征{Φ~(xi)}ni=1的一维子空间,亦即1n∑ni=1Φ(xi)+span{u1}为W上最佳拟合样本特征{Φ(xi)}ni=1的一维流形。
此时任意x∈X在特征空间W中该一维流形上的表示为
⟨Φ~(x),u∗⟩W==∑i=1n⟨u∗,Φ~(xi)⟩W⟨Φ~(xi),Φ~(x)⟩W∑i=1n⟨u∗,Φ~(xi)⟩WK~(xi,x),
其中第二部分
K~(xi,x)=K(xi,x)−1n∑j=1nK(xi,xj)−1n∑j=1nK(xj,x)+1n2∑j,k=1nK(xj,xk).
谱分解对应之SVD分解
上式第一部分似乎与特征对选择有关,然此时由谱分解,有
∑i=1n⟨uj,Φ~(xi)⟩W⟨Φ~(xi),uk⟩W=λjδjk.
记
K[X]WΛ:=[K(xi,xj)]ni,j=1:=[⟨Φ~(xi),uj⟩]i∈Nnj∈Np:=diag(λi)pi=1
则有
K[X]Λ=WW∗=W∗W.
记U:=WΛ−12, 则有
K[X]Ip=UΛU∗=U∗U,
此即谱分解所对应核矩阵的SVD分解。能看出U矩阵每一列为对应样本特征在该主方向上的分解系数。反之,核矩阵的任意SVD分解均能导出对应之谱分解。
SVD分解下之表示
设核矩阵的SVD分解为
K[X]Ip=UΛU∗=U∗U,
此时任意x∈X在特征空间W中该一维流形上的表示为
xlabel=∑i=1n⟨u∗,Φ~(xi)⟩WK~(xi,x)=1λ1∑i=1n[U]i1¯¯¯¯¯¯¯K~(xi,x),
与特征对选取无关。