机器学习(五)降维
5.1 PCA
用d′d′维向量表示dd维向量样本,使得降维后的数据与源数据平方误差最小(投影到低维子空间中,使得原始数据在这个子空间的各个方向方差最大化)
从最大重构性推导:
假设样本进行了中心化,,假设投影变换后得到的新坐标系为{w1,w2,...,wd′}{w1,w2,...,wd′},标准正交基,样本点xixi低纬投影为为zi={zi1,zi2,...,zid′}zi={zi1,zi2,...,zid′},其中zij=wTjwizij=wjTwi是xixi在低纬坐标下第jj维的坐标,若基于来构建xixi,则会得到x^i=∑d′j=1zijwjx^i=∑j=1d′zijwj
有 W,d×d′W,d×d′,zi=WTxizi=WTxi
目标函数为:
从最大可分性推导:
样本点在空间超平面的投影是WTxiWTxi,若使所有样本点尽可能分开,则应使投影样本方差最大化
样本点投影方差是maxW∑mi=1WTxixTiWmaxW∑i=1mWTxixiTW
于是优化目标为:
使用拉个朗日乘子法
上式等于0,可得
于是只需要对协方差矩阵XTXXTX进行特征值分解,对特征进行排序,取前d′d′个特征值对应的特征向量构成W={w1,w2,...,wd′}(5.1.6)(5.1.6)W={w1,w2,...,wd′}
d′d′选取方式,指定d′d′,或根据如下阈值
特点:
少数特征值可以表示原数据中的绝大部分信息,剩下的小特征被认为是数据噪音 给丢掉
适用于变量线性相关 但其未使用Label 无监督 线性关系
以方差衡量信息的无监督学习,不受样本标签限制,
各主成分之间正交,可消除原始数据成分间的相互影响
计算方法简单,易于实现。
缺点:
特征根的大小决定了我们感兴趣信息的多少。即小特征根往往代表了噪声,但实际上,向小一点的特征根方向投影也有可能包括我们感兴趣的数据;
特征向量的方向是互相正交(orthogonal)的,这种正交性使得PCA容易受到Outlier的影向
主成分解释其含义往往具有一定的模糊性,不如原始样本完整
贡献率小的主成分往往可能含有对样本差异的重要信息
特征值矩阵的正交向量空间是否唯一有待讨论
无监督学习
PCA追求的是在降维之后能够最大化保持数据的内在信息,并通过衡量在投影方向上的数据方差的大小来衡量该方向的重要性。但是这样投影以后对数据 的区分作用并不大,反而可能使得数据点揉杂在一起无法区分。
5.2 LDA
LDA线性判别分心(Fisher Linear Discriminant)是一种有监督的(supervised)线性降维算法。与PCA保持数据信息不同,LDA是为了使得降维后的数据点尽可能地容易被区分
投影到一条直线上,同类尽可能近,异类尽可能远
二分类:
给定数据集D=(xi,yi)mi=1,yi∈{0,1}D=(xi,yi)i=1m,yi∈{0,1},令Xi,μi,ΣiXi,μi,Σi分别表示第i∈{0,1}i∈{0,1}类示例的集合、均值向量、协方差矩阵
将其投影 得到两类样本中心wTμ0wTμ0,wTμ1wTμ1,将其所有样本点投影到直线得到两类样本的协方差为wTΣ0wwTΣ0w、wTΣ1wwTΣ1w
同类样例的投影点尽可能近,可以让同类样例协方差竟可能小 wTΣ0w+wTΣ1wwTΣ0w+wTΣ1w
异类样例的投影点尽可能远,可以上类中心二等距离尽可能的大||wTμ0+wTμ1||22||wTμ0+wTμ1||22
目标函数:
定义类内散度矩阵
定义类间散度矩阵
改写目标函数
LDA最大化为如上目标函数,这个目标函数又称为Sb,SwSb,Sw的广义瑞利商
分子分母均存在wTwwTw,ww的长度与解无关,令,则将目标函数等价于
使用拉格朗日乘子法:
SbSb对称,固:
可得到:
由于Sbw=(μ0−μ1)(μ0−μ1)TwSbw=(μ0−μ1)(μ0−μ1)Tw是标量,方向恒为μ0−μ1μ0−μ1,不妨令Sbw=λ(μ0−μ1)Sbw=λ(μ0−μ1)代入(5.2.9)(5.2.9)
可得:
考虑数值解的稳定性,通常进行奇异值分解,Sw=UΣVTSw=UΣVT,之后S−1w=UΣ−1VTSw−1=UΣ−1VT,即可得最佳投影方向
如何降维?:
由(5.2.9),得S−1wSbw=λwSw−1Sbw=λw
对于矩阵S−1wSbSw−1Sb的最大d个特征值对应的d个特征w1,w2,...wdw1,w2,...wd组成投影矩阵W
对于每一个样本xixi,zi=WTxizi=WTxi
多分类:
全局散度矩阵定义:
其中:
由5.2.12与5.2.135.2.12与5.2.13,mimi为类i的个数
优化目标为:
W的闭式解为S−1wSbwSw−1Sbw的最大N-1(l类别数-1)个特征值对应的特征向量
优点:
在降维过程中可以使用类别的先验知识经验,而像PCA这样的无监督学习则无法使用类别先验知识。
LDA在样本分类信息依赖均值而不是方差的时候,比PCA之类的算法较优
缺点:
不适用于非高斯分布样本进行降维(PCA也是),PCA一般要进行whitening
LDA降维最多降到类别数k-1的维数
LDA可能过度拟合数据。
LDA在样本分类信息依赖方差而不是均值的时候,较PCA之类的算法差
PCA是为了去除原始数据集中冗余的维度,让投影子空间的各个维度的方差尽可能大,也就是熵尽可能大。LDA是通过数据降维找到那些具有discriminative的维度,使得原始数据在这些维度上的投影,不同类别尽可能区分开来。
5.3 LLE 流行学习
一种非线性降维算法,它能够使降维后的数据较好地保持原有 流形结构 ,试图保持邻域内样本的线性关系,可以通过领域内样本重构
QiQi为xixi的近邻下集合,令Cjk=(xi−xj)T(xi−xk)Cjk=(xi−xj)T(xi−xk),wijwij有闭式解:
LLE在低维子空间中wiwi不变,于是可以通过如下表达式求解: