特征工程-特征提取

本文详细介绍了特征工程中的特征提取过程,包括MDS(成对保持)、PCA(单点保持)和LDA(有监督)方法。MDS通过保持样本之间的成对关系进行降维,PCA寻求最大化数据方差的方向,而LDA则关注类内距离小、类间距离大的投影方向。这些方法在数据降维和特征选择中起到关键作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

特征工程

1、数据降维
2、特征提取
3、特征选择

二、特征提取

​ 特征提取是一个特征空间上的变换(映射),可以是线性和非线性的。所以特征提取与特征选择的不同之处在于,特征提取之后的特征已经不是原始特征了,而特征选择则是在原始的特征中选择出有价值的特征。既然,特征提取是一个空间上的映射,那么特征提取的问题就变成了选择合适的投影方向。选择合适的投影的方向就是必然有一个目标(保持损失最小),即目标函数。特征提取的方法很多,每一种方法都有因各自的目标不同而有不同的特性,下面笔者目标的形式将特征提取分为三类:成对保持单点保持

一、MDS(成对保持):

​ 与其说Multiple Dimensional Scaling (MDS)是一种降维方法,不如理解为一种特征提取的思想。其特征提取的思想是成对保持(相似性,距离),如ISOMAP多维尺度分析与等距映射,谱哈希等。都是成对的保持数据在原始空间的关系,将数据映射到一个低维的空间。因此,为了描述样本点在原始空间的成对关系,我们需要一个相似性度量矩阵S∈Rm×mS\in R^{m\times m}SRm×m,其中mmm为样本数据集大小,样本数据集X∈Rr×mX\in R^{r\times m}XRr×m。为了使得映射到低维的空间后相似性度量矩阵的损失最小,我们可以用下式表示:
min⁡∑ij∣∣Sij−S(Zi,Zj)∣∣2s.t.ZZT=mI \min \sum_{ij}||S_{ij}-S(Z_{i},Z_{j})||^2\\ s.t. ZZ^{T}=mI minijSijS(Zi,Zj)2s.t.ZZT=mI
其中Zi∈Rd×1Z_{i}\in R^{d\times 1}ZiRd×1表示样本XiX_{i}Xi在低维空间的表示,其中约束条件为规范化约束。S(Zi,Zj)S(Z_{i},Z_{j})S(Zi,Zj)表示样本在低维空间的相似性度量,这里我们采用简单的度量S(Zi,Zj)=ZiTZjS(Z_{i},Z_{j})=Z_{i}^TZ_{j}S(Zi,Zj)=ZiTZj。那么,目标函数可以简化为:
min⁡∑ij∣∣Sij−ZiTZj∣∣2⇔max⁡SZTZs.t.ZZT=mI \min \sum_{ij}||S_{ij}-Z_{i}^{T}Z_{j}||^2\Leftrightarrow \max SZ^{T}Z\\ s.t. ZZ^{T}=mI minijSijZiTZj2maxSZTZs.t.ZZT=mI
到此,目标函数已非常清晰,类似于谱聚类,把ZZZ看作由一维一维的向量构成,那么SZTZZT=λZTSZ^TZZ^T=\lambda Z^TSZTZZT=λZT,目标函数问题就是SSS的前ddd个最大特征值,ZZZ即为SSS的最大特征值对应的特征向量构成的矩阵。

由SVD分解,S=V∧VTS=V\wedge V^TS=VVT,其中∧ii\wedge_{ii}iiSSS对应的前ddd个最大特征值,为VVV特征值对应的特征向量构成的矩阵,那么有:
Z=∧1/2VT Z=\wedge^{1/2}V^T Z=1/2VT
在确定投影空间的向量表示ZZZ之后,我们在回过头来求投影向量WWW有:
Z=WTX Z=W^TX Z=WTX
其中W∈Rr×dW\in R^{r\times d}WRr×d,可见MDS是一个线性变换。在成对保持的思想下,换用不同的相似性度量可以导出不同的方法,另外添加不同的约束条件,也可以导出不同的方法,如哈希学习。

二、PCA(单点保持)

​ PCA是最常用的一种无监督数据降维方法,既可以进行特征提取,更一般用于数据可视化分析。众所周知,PCA有两种解释,最大方差解释,最小重构损失解释,最大方差解释是一种较合理性解释,即寻找方差最大的方法最能反映样本的区分度,信息量最大(相对而言,如果数据在某一维度都等于3,那么自然方差为0,信息量无意义)。但是在机器学习中,我们最常用的目标还是损失最小,所以个人觉得第二种解释才是PCA的根本,而最大方差解释更像是形象化解释。所以,我们从最小重构损失解释推导出最大方差解释:

​ 假设有样本数据集X∈r×mX\in r\times mXr×m,投影方向为W={ w1,w2,.wi.,wd},wi∈Rr×dW=\{ w_{1},w_{2},.w_{i}.,w_{d}\},w_{i}\in R^{r\times d}W={ w1,w2,.wi.,wd},wiRr×d,其中wiw_{i}wi是一组标准正交基,即∣∣wi∣∣2=1,wiTwj=0⇒WTW=I||w_{i}||^2=1,w_{i}^Tw_{j}=0 \Rightarrow W^TW=Iwi2=1,wiTwj=0WTW=I,那么在WWW坐标系下,样本的数据集表示为Z∈Rd×mZ\in R^{d\times m}Z

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值