文章目录
降维
线性判别分析 LDA
LDA是什么?
LDA是有监督学习中的降维方法,是线性分类器和高斯模型的结合。
在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。
如下图所示,这些数据特征是二维的,我们希望将这些数据投影到一维的一条直线,让每一种类别数据的投影点尽可能的接近,而红色和蓝色数据中心之间的距离尽可能的大。
Two-class LDA (见PPT)
(1)
线性分类器 y k = w k T x + w 0 y_k=w_k^Tx+w_0 yk=wkTx+w0
LDA的投影函数 y = w T x y=w^Tx y=wTx
目标:求能使优化函数最大化的参数 w w w
思想:类内小,类间大
(4)
类内散度矩阵 S W S_W SW
类间散度矩阵 S B S_B SB
(5)
化为求特征向量问题
本页的 J = J ( w ) J=J(w) J=J(w),是一个数
dividing w T S w w w^TS_ww wTSww即归一化
拉格朗日乘子法l
【草稿】数据集 D = { ( x 1 , y 1 ) , . . . , ( x N , y N ) } , D j D=\{(x_1, y_1),...,(x_N,y_N)\}, D_j D={ (x1,y1),...,(xN,yN)},Dj 为属于第 j j j类的样本集合。
第 j j j类样本的均值 $ \mu_j=\frac{1}{N_j}\sum\limits_{x\in D_j} x$
第 j j j类样本的协方差 ∑ j = ∑ x ∈ D j ( x − μ j ) ( x − μ j ) T \sum_j=\sum\limits_{x\in D_j}(x-\mu_j)(x-\mu_j)^T ∑j=x∈Dj∑(x−μj)(x−μj)T
优缺点
LDA算法既可以用来降维,又可以用来分类,主要还是用于降维。在我们进行图像识别相关的数据分析时,LDA是一个有力的工具。
主要优点有:
- 在降维过程中可以使用类别的先验知识经验,而像PCA这样的无监督学习则无法使用类别先验知识。
- LDA在样本分类信息依赖均值而不是方差的时候,比PCA之类的算法较优。
主要缺点有:
- 不适合对非高斯分布样本进行降维,PCA也有这个问题。
- 降维最多降到类别数k-1的维数,如果我们降维的维度大于k-1,则不能使用LDA。当然目前有一些LDA的进化版算法可以绕过这个问题。
- 在样本分类信息依赖方差而不是均值的时候,降维效果不好。
- 可能过拟合
主成分分析 PCA
PCA无监督学习中的降维方法
目标:二维降为一维, v 1 v_1 v1方向较好,两个评判标准:
- 样本到这条直线距离较近;
- 样本点在这条直线投影较散
基于投影距离的PCA
Linear Discriminant Analysis, LDA | Principal Components Analysis, PCA |
---|---|
有监督降维,样本有类标 | 无监督降维,样本无类标 |
最多降维到k-1 | 无限制 |
投影后类内方差最小,类间方差最大(即投影方向为分类性能最好的方向)。 | 最大化投影后的方差/最小化投影后的损失 |
既可降维,也可分类。其学习得的判别函数,可预测新样本 | 对原数据降维,作为预处理 |
支持向量机 SVM
核方法 Kernel Methods
说一说核方法(一)——核方法与核函数简介
问题:低维空间数据线性不可分
办法:找到一个映射,将低维空间数据映射到高维,使数据线性可分;
新的问题:这个映射本质是内积,高维空间中求内积非常复杂
新的办法:核方法,满足映射到高维的要求,同时用低维空间内积表示高维内积。
与SVM的关系:核方法是个独立于SVM的方法,只不过常用于SVM,但也可以用于logistic回归,最小二乘法,降维等等。
那么这个映射是什么呢?它其实描述的是一个跟内积有关的东西。有点像是在说:如果我有一个维度很高的内积空间,那么我能找到一个映射 Φ : X → H , Φ ( x ) = K ( x , ⋅ ) \Phi : X \to \mathcal{H}, \Phi(x) = K(x, \cdot) Φ:X→H,Φ(x)=K(x,⋅) (其中 H \mathcal{H} H 是某个 RKHS 空间),它可以把这个空间中的点 x x x 映射成为一个函数(请想象这个 RKHS 空间是由函数们组成的空间,里面的每一个点,或者说每一个元素,都是一个函数),这样,在计算高维内积时就有 < Φ ( x ) , Φ ( y ) > H = K ( x , y ) <\Phi(x), \Phi(y)>_{\mathcal{H}} = K(x, y) <Φ(x),Φ(y)>H=