漫谈机器学习经典算法—特征提取与特征选择

本文深入探讨了特征提取与特征选择的概念、原理及其在机器学习中的重要作用。详细介绍了PCA、LDA、ICA、CCA等线性和非线性特征提取方法,以及它们在数据降维、减少冗余、增强分类性能等方面的实际应用。同时,文章还讨论了特征选择的过程,旨在从大量特征中挑选出最具统计意义的特征,以实现数据的有效降维。最后,通过具体的数学推导和案例分析,展示了这些方法在实际问题解决中的具体步骤和效果。
更新:邮箱发只是来。此文放到了http://lanbing510.info/2014/10/22/Feature-Extraction-Selection.html。谢谢。

注:图片看不到的同学能够去以下的链接查看:http://app.yinxiang.com/l/AB8UpUaK_SBMEald_sRU-Z-xGtofVoIaxjM/

特征提取和特征选择都是从原始特征中找出最有效(同类样本的不变性、不相同本的鉴别性、对噪声的鲁棒性)的特征

特征提取:将原始特征转换为一组具有明显物理意义(Gabor、几何特征[角点、不变量]、纹理[LBP HOG])或者统计意义或核的特征
特征选择:从特征集合中挑选一组最具统计意义的特征。达到降维
两者作用:
1 降低数据存储和输入数据带宽
2 降低冗余
3 低纬上分类性往往会提高
4 能发现更有意义的潜在的变量,帮助对数据产生更深入的了解


线性特征提取

PCA-主成分分析
思想:寻找表示数据分布的最优子空间(降维,能够去相关)
事实上就是协方差矩阵前s个最大特征值相应的特征向量构成映射矩阵
以下是讲述的非常直观具体的文章
主元分析(PCA)理论分析及应用.doc
561.5 KB



LDA-线性判别分析
思想:寻找可分性判据最大的子空间。
用到了Fisher的思想,即寻找一个向量。使得降维后类内散度最小。类间散度最大;事实上就是Sw-1Sb前s个特征值相应的特征向量构成映射矩阵
DHS的模式分类一书中96页有具体的推导,浅显易懂
參考论文1

ICA-独立成分分析
思想:PCA是将原始数据降维。并提取不相关的部分。ICA是将原始数据降维并提取出相互独立的属性;寻找一个线性变换z=Wx,使得z的各个分量间的独立性最大。I(z)=Eln(p(z)/p(z1)..p(zd))
看Machine Learning A Probabilistic Perspective的推导计算
參考论文2


注:PCA&ICA
PCA的问题事实上是一个基的变换,使得变换后的数据有着最大的方差。方差的大小描写叙述的是一个变量的信息量,我们在讲一个东西的稳定性的时候,往往说要减小方差,假设一个模型的方差非常大,那就说明模型不稳定了。

可是对于我们用于机器学习的数据(主要是训练数据)。方差大才有意义,不然输入的数据都是同一个点,那方差就为0了,这样输入的多个数据就等同于一个数据了。


ICA是找出构成信号的相互独立部分(不须要正交),相应高阶统计量分析。ICA理论觉得用来观測的混合数据阵X是由独立元S经过A线性加权获得。ICA理论的目标就是通过X求得一个分离矩阵W,使得W作用在X上所获得的信号Y是独立源S的最优逼近。该关系能够通过下式表示:

Y = WX = WAS 。 A = inv(W)

ICA相比与PCA更能刻画变量的随机统计特性,且能抑制高斯噪声。





二维PCA
參考论文3






CCA-Canonical Correlaton Analysis 典型相应分析
思想:找到两组基,使得两组数据在这两组基上的投影相关性最大
用来描写叙述两个高维变量之间的线性关系
用PLS(Partial Least Squares)来求解
參考论文4




非线性特征提取

Kernel PCA  參考论文5

Kernel FDA  參考论文6


Manifold Learning 流形学习
找到流行上的低维坐标
利用流行学上的局部结构进行降维的方法:ISOMAP、LLE、Laplacian Eigenmap、LPP
參考文献7 8 9 10


准则性质总结



分为三类
1 基于欧氏距离的准则(散度矩阵)
2 基于概率距离的准则


3 基于熵的准则



相应的准则相应










參考文献

[1] Hua Yu and  JieYang, A direct LDA algorithm for high - dimensional data with application to face recognition, Pattern Recognition Volume 34, Issue 10, October 2001,pp.2067- 2070
[2] A. Hyvarinenand E.  Oja. Independent Component Analysis: Algorithms and Applications.  Neural Networks, 13(4- 5):411 -430, 200
[3] J. Yang, D. Zhang, A.F.  Frangi , and J.Y. Yang, Two - dimensional PCA: a new approach to appearance - based face representation and recognition, IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. 26, no. 1, pp. 131- 137, Jan. 2004
[4] R. H. David, S.  Sandor and S.- T.   John,Canonical correlation analysis: An overview with application to learning methods, Technical Report, CSD - TR- 03-02,2003
[5] B. Scholkopf , A.  Smola , and K.R. Muller. Nonlinear component analysis as a kernel eigenvalue problem, Neural Computation, 10(5): 1299- 1319, 1998
[6] Mika, S., Ratsch , G., Weston, J.,   Scholkopf , B.,  Mullers, K.R., Fisher discriminantanalysis with kernels, Neural Networks for Signal Processing IX, Proceedings of the IEEE Signal Processing Society Workshop, pp. 41  – 48, 1999
[7] J. B.  Tenenbaum , V. de Silva, and J. C. Langford, A global geometric framework for nonlinear dimensionality reduction, Science, 290, pp. 2319 - 2323, 2000
[8] Sam T.  Roweis , and Lawrence K. Saul, Nonlinear Dimensionality Reduction by Locally Linear Embedding,Science 22 December 2000
[9] Mikhail Belkin ,   Partha Niyogi ,Laplacian Eigenmaps for Dimensionality Reduction and Data Representation , Computation , 200
[10] Xiaofei He, Partha Niyogi, Locality Preserving Projections, Advances in Neural Information Processing Systems 16 (NIPS 2003), Vancouver, Canada, 2003
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值