机器学习(五)降维
5.1 PCA
用
d′
d
′
维向量表示
d
d
维向量样本,使得降维后的数据与源数据平方误差最小(投影到低维子空间中,使得原始数据在这个子空间的各个方向方差最大化)
从最大重构性推导:
假设样本进行了中心化,,假设投影变换后得到的新坐标系为
{w1,w2,...,wd′}
{
w
1
,
w
2
,
.
.
.
,
w
d
′
}
,标准正交基,样本点
xi
x
i
低纬投影为为
zi={zi1,zi2,...,zid′}
z
i
=
{
z
i
1
,
z
i
2
,
.
.
.
,
z
i
d
′
}
,其中
zij=wTjwi
z
i
j
=
w
j
T
w
i
是
xi
x
i
在低纬坐标下第
j
j
维的坐标,若基于来构建
xi
x
i
,则会得到
x^i=∑d′j=1zijwj
x
^
i
=
∑
j
=
1
d
′
z
i
j
w
j
有
W,d×d′
W
,
d
×
d
′
,
zi=WTxi
z
i
=
W
T
x
i
目标函数为:
从最大可分性推导:
样本点在空间超平面的投影是
WTxi
W
T
x
i
,若使所有样本点尽可能分开,则应使投影样本方差最大化
样本点投影方差是
maxW∑mi=1WTxixTiW
max
W
∑
i
=
1
m
W
T
x
i
x
i
T
W
于是优化目标为:
使用拉个朗日乘子法
上式等于0,可得
于是只需要对协方差矩阵 XTX X T X 进行特征值分解,对特征进行排序,取前 d′ d ′ 个特征值对应的特征向量构成 W={w1,w2,...,wd′}(5.1.6) (5.1.6) W = { w 1 , w 2 , . . . , w d ′ }
d′
d
′
选取方式,指定
d′
d
′
,或根据如下阈值
特点:
少数特征值可以表示原数据中的绝大部分信息,剩下的小特征被认为是数据噪音 给丢掉
适用于变量线性相关 但其未使用Label 无监督 线性关系
以方差衡量信息的无监督学习,不受样本标签限制,
各主成分之间正交,可消除原始数据成分间的相互影响
计算方法简单,易于实现。
缺点:
特征根的大小决定了我们感兴趣信息的多少。即小特征根往往代表了噪声,但实际上,向小一点的特征根方向投影也有可能包括我们感兴趣的数据;
特征向量的方向是互相正交(orthogonal)的,这种正交性使得PCA容易受到Outlier的影向
主成分解释其含义往往具有一定的模糊性,不如原始样本完整
贡献率小的主成分往往可能含有对样本差异的重要信息
特征值矩阵的正交向量空间是否唯一有待讨论
无监督学习
PCA追求的是在降维之后能够最大化保持数据的内在信息,并通过衡量在投影方向上的数据方差的大小来衡量该方向的重要性。但是这样投影以后对数据 的区分作用并不大,反而可能使得数据点揉杂在一起无法区分。
5.2 LDA
LDA线性判别分心(Fisher Linear Discriminant)是一种有监督的(supervised)线性降维算法。与PCA保持数据信息不同,LDA是为了使得降维后的数据点尽可能地容易被区分
投影到一条直线上,同类尽可能近,异类尽可能远
二分类:
给定数据集
D=(xi,yi)mi=1,yi∈{0,1}
D
=
(
x
i
,
y
i
)
i
=
1
m
,
y
i
∈
{
0
,
1
}
,令
Xi,μi,Σi
X
i
,
μ
i
,
Σ
i
分别表示第
i∈{0,1}
i
∈
{
0
,
1
}
类示例的集合、均值向量、协方差矩阵
将其投影 得到两类样本中心
wTμ0
w
T
μ
0
,
wTμ1
w
T
μ
1
,将其所有样本点投影到直线得到两类样本的协方差为
wTΣ0w
w
T
Σ
0
w
、
wTΣ1w
w
T
Σ
1
w
同类样例的投影点尽可能近,可以让同类样例协方差竟可能小
wTΣ0w+wTΣ1w
w
T
Σ
0
w
+
w
T
Σ
1
w
异类样例的投影点尽可能远,可以上类中心二等距离尽可能的大
||wTμ0+wTμ1||22
|
|
w
T
μ
0
+
w
T
μ
1
|
|
2
2
目标函数:
定义类内散度矩阵
定义类间散度矩阵
改写目标函数
LDA最大化为如上目标函数,这个目标函数又称为
Sb,Sw
S
b
,
S
w
的广义瑞利商
分子分母均存在
wTw
w
T
w
,
w
w
的长度与解无关,令,则将目标函数等价于
使用拉格朗日乘子法:
Sb S b 对称,固:
可得到:
由于 Sbw=(μ0−μ1)(μ0−μ1)Tw S b w = ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T w 是标量,方向恒为 μ0−μ1 μ 0 − μ 1 ,不妨令 Sbw=λ(μ0−μ1) S b w = λ ( μ 0 − μ 1 ) 代入 (5.2.9) ( 5.2.9 )
可得:
考虑数值解的稳定性,通常进行奇异值分解, Sw=UΣVT S w = U Σ V T ,之后 S−1w=UΣ−1VT S w − 1 = U Σ − 1 V T ,即可得最佳投影方向
如何降维?:
由(5.2.9),得
S−1wSbw=λw
S
w
−
1
S
b
w
=
λ
w
对于矩阵
S−1wSb
S
w
−
1
S
b
的最大d个特征值对应的d个特征
w1,w2,...wd
w
1
,
w
2
,
.
.
.
w
d
组成投影矩阵W
对于每一个样本
xi
x
i
,
zi=WTxi
z
i
=
W
T
x
i
多分类:
全局散度矩阵定义:
其中:
由 5.2.12与5.2.13 5.2.12 与 5.2.13 , mi m i 为类i的个数
优化目标为:
W的闭式解为 S−1wSbw S w − 1 S b w 的最大N-1(l类别数-1)个特征值对应的特征向量
优点:
在降维过程中可以使用类别的先验知识经验,而像PCA这样的无监督学习则无法使用类别先验知识。
LDA在样本分类信息依赖均值而不是方差的时候,比PCA之类的算法较优
缺点:
不适用于非高斯分布样本进行降维(PCA也是),PCA一般要进行whitening
LDA降维最多降到类别数k-1的维数
LDA可能过度拟合数据。
LDA在样本分类信息依赖方差而不是均值的时候,较PCA之类的算法差
PCA是为了去除原始数据集中冗余的维度,让投影子空间的各个维度的方差尽可能大,也就是熵尽可能大。LDA是通过数据降维找到那些具有discriminative的维度,使得原始数据在这些维度上的投影,不同类别尽可能区分开来。
5.3 LLE 流行学习
一种非线性降维算法,它能够使降维后的数据较好地保持原有 流形结构 ,试图保持邻域内样本的线性关系,可以通过领域内样本重构
Qi Q i 为 xi x i 的近邻下集合,令 Cjk=(xi−xj)T(xi−xk) C j k = ( x i − x j ) T ( x i − x k ) , wij w i j 有闭式解:
LLE在低维子空间中 wi w i 不变,于是可以通过如下表达式求解: