线性降维-笔记(1)

最新推荐文章于 2024-10-06 15:16:07 发布

仙守

最新推荐文章于 2024-10-06 15:16:07 发布

阅读量5.3k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： machine learning 文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/shouhuxianjian/article/details/70052391

1 - 线性降维

样本在高维情形下会出现数据样本稀疏（因为样本不是均匀分布在每个维度表示的空间中），距离计算困难（欧式距离也不如人想象的那么有效），可视化困难，容易过拟合等问题。所以不论是机器学习，还是人类理解角度，高维都是个不喜欢的话题（当然对于低维样本线性不可分而上升到高维线性可分的情形并不是这里指的情况）。

因为基于大多人类观测和收集到的样本，与学习任务密切相关的也许只是某些低维分布。所以如果适当的降维，可以让样本在所需维度上达到更密集的分布，且距离计算问题也能缓解不少。
一般来说，想要获得低维子空间，最简单的是对原始高维空间进行线性变换。给定 $d$ 维空间中的样本 ${\bf X}=({\bf x}_1,{\bf x}_2,...,{\bf x}_N)\in R_{d \times N}$ ,变换后得到 $d{'} \leq d$ 维空间中的样本：

X' = W T X

$\bf X' = W^TX$
其中

W∈Rd×d′ ${\bf W} \in R^{d\times d{'}}$ 是变换矩阵，

X′∈Rd′×N ${\bf X'}\in R^{d{'}\times N}$ 是样本在新坐标空间中的表达。变换矩阵

W $\bf W$ 可以看成是

d′ $d'$ 个

d $d$ 维基向量，

x′i=WTxi ${\bf x'}_i={\bf W}^T{\bf x}_i$ 是第

i $i$ 个样本(即

X $\bf X$ 中的第

i $i$ 个列向量)与这

d′ $d'$ 个基向量分别做内积而得到的

d′ $d'$ 维特征列向量。

x′i ${\bf x'}_i$ 同时也可以看成是第

i $i$ 个

d $d$ 维的样本

xi ${\bf x}_i$ 在新坐标系

{ w1,w2,...,wd′} $\{{\bf w}_1,{\bf w}_2,...,{\bf w}_{d{'}}\}$ 中的坐标向量，若

wi ${\bf w}_i$ 与

wj ${\bf w}_j$ ，

(i≠j) $(i\neq j)$ ，则新的坐标系是一个正交坐标系（我们通常的

x,y,z $x,y,z$ 就是一个正交坐标系），此时

W $\bf W$ 为正交变换。显然，新空间中的特征是原空间中特征的线性组合。
基于线性变换来降维的方法称为线性降维方法，不同的线性降维方法基本上就是对低维子空间的性质有不同要求，对降维效果的评估，就是比较降维前后学习器的性能。其中主成分分析是一种无监督的线性降维方法，线性判别分析(LDA)是一种有监督线性降维方法。

2 - PCA

PCA是一种降维方法，其可以用来1）可视化；2）预处理；3）建模；4）压缩。
假设有 $N$ 个样本 $\{{\bf x}_i\}$ ,其中每个样本都是 $d$ 维： ${\bf x}_i\in R^d$ 。我们的目标就是用更低维的样本表示 $\{{\bf x}_i'\}$ 来代替这些高维样本，其中低维样本维度为 $d'$ 且 $d'<d$ 。
这可以看成是一个线性变换的形式:

x = W x' + b = \sum i = 1 d' w i x' i + b (2.1)

$\bf { x = Wx'+b}=\sum_{\cal i=1}^{d'}\bf {w}_{\cal i}x_{\cal i}'+b \tag{2.1}$
其中

W $\bf W$ 是一个

d×d′ $d\times d'$ 的变换矩阵；

xi $x_i$ 为一个低维样本表示的列向量，

wi ${\bf w}_i$ 为矩阵

W $\bf W$ 的第

i $i$ 个列向量。矩阵

W $\bf W$ 同样可以看成是

d′ $d'$ 个基向量即

W=[w1,...,wd′] $\bf W=[w_1,...,w_{d'}]$ 。如果假定样本获取过程中会混入高斯噪音，那么该模型就是一个线性回归模型了，只是这里

x′ $\bf x'$ 是一个未知的线性参数。
为了学习这个模型，对该模型建立目标函数，这里采用最小二乘方法：

a r g min W, b, x' i \sum i | | x i - (W x' i + b) | | 2 s u b j e c t t o W T W = I (2.2)

$arg\min_{{\bf W,b},{{\bf x}_i'}}\quad \sum_i||{\bf x}_i-({\bf Wx}_i'+{\bf b})||^2\\ subject \quad to \quad {\bf W}^T{\bf W}=\bf I \tag{2.2}$
这里的限制使得求得的变换矩阵式一个正交矩阵，即等同于:

w T i w j = {10 i = j i \neq j

${\bf w}_i^T{\bf w}_j=\begin{cases} 1 & i=j\\ 0 & i\neq j \end{cases}$
其中

x′ $\bf x'$ 所在空间的坐标系为潜在坐标系。具体过程如下：
1）先计算原有样本矩阵基于样本的均值向量：

b = 1 N \sum i x i

${\bf b}=\frac{1}{N}\sum_i{\bf x}_i$
2）:计算原有样本矩阵中心化后的协方差均值矩阵:

K = 1 N \sum i (x i - b) (x i - b) T

${\bf K}=\frac{1}{N}\sum_i({\bf x}_i-{\bf b})({\bf x}_i-{\bf b})^T$
3）:对上述矩阵进行矩阵分解，并计算其特征值和特征向量:

K = V Λ V T

${\bf K}={\bf V\Lambda V^T}$
其中

Λ $\bf \Lambda$ 是由特征值组成的对角矩阵

Λ=diag(λ1,...λd) ${\bf \Lambda}=diag(\lambda_1,...\lambda_d)$ ;

V $\bf V$ 是对应特征值的特征向量，且该矩阵是正交矩阵即，

V=[V1,...Vd] ${\bf V}=[{\bf V}_1,...{\bf V}_d]$ ，

VTV=I $\bf V^TV=I$
对特征值矩阵进行从大到小排序，选取足够多精度的特征值（即丢弃特征值较小的）
4）:用保留的特征值对应的特征向量组成正交矩阵

W=[V1,...Vd′] ${\bf W}=[{\bf V}_1,...{\bf V}_{d'}]$
5）:从而新的样本为

x′i=WT(xi−b) ${\bf x}_i'={\bf W}^T({\bf x}_i-{\bf b})$ ,

i∈1,2,...,N $i\in{1,2,...,N}$

2.1 为什么选取特征值较大的，而不是较小的

假设投影后空间的坐标系为 ${\bf W} = \{{\bf w}_1,{\bf w}_2,{\bf w}_3,...{\bf w}_{d'}\}$ ,且其两两正交，且原始样本已经进行了中心化,即均值为0。原始样本 $\{{\bf x}_i\}$ 在新空间中投影为 $\{{\bf x}_i'\}$ ,且 ${x}_{ij}'={\bf w}_j^T{\bf x}_i$ ,是 $\{{\bf x}_i'\}$ 在低维坐标系下第 $j$ 维的坐标值。以此重构得到 $\hat {\bf x}_i={\bf Wx}_i'=\sum_{j=1}^{d'}{ x}_{ij}'{\bf w}_j$
基于整个训练集，原样本点 ${\bf x}_i$ 与基于新空间样本点重构的样本点 $\hat {\bf x}_i$ 之间距离为: