特征工程-特征提取

最新推荐文章于 2021-08-10 09:49:24 发布

原创

最新推荐文章于 2021-08-10 09:49:24 发布 · 1.5k 阅读

5 ·

CC 4.0 BY-SA版权

本文详细介绍了特征工程中的特征提取过程，包括MDS（成对保持）、PCA（单点保持）和LDA（有监督）方法。MDS通过保持样本之间的成对关系进行降维，PCA寻求最大化数据方差的方向，而LDA则关注类内距离小、类间距离大的投影方向。这些方法在数据降维和特征选择中起到关键作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

特征工程

1、数据降维

2、特征提取

3、特征选择

二、特征提取

特征提取是一个特征空间上的变换（映射），可以是线性和非线性的。所以特征提取与特征选择的不同之处在于，特征提取之后的特征已经不是原始特征了，而特征选择则是在原始的特征中选择出有价值的特征。既然，特征提取是一个空间上的映射，那么特征提取的问题就变成了选择合适的投影方向。选择合适的投影的方向就是必然有一个目标（保持损失最小），即目标函数。特征提取的方法很多，每一种方法都有因各自的目标不同而有不同的特性，下面笔者目标的形式将特征提取分为三类：成对保持，单点保持 ，

一、MDS（成对保持）：

与其说Multiple Dimensional Scaling (MDS)是一种降维方法，不如理解为一种特征提取的思想。其特征提取的思想是成对保持（相似性，距离），如ISOMAP多维尺度分析与等距映射，谱哈希等。都是成对的保持数据在原始空间的关系，将数据映射到一个低维的空间。因此，为了描述样本点在原始空间的成对关系，我们需要一个相似性度量矩阵 $S∈Rm×mS\in R^{m\times m}$ ，其中 $m$ 为样本数据集大小，样本数据集 $X∈Rr×mX\in R^{r\times m}$ 。为了使得映射到低维的空间后相似性度量矩阵的损失最小，我们可以用下式表示：
$\min \sum_{ij}||S_{ij}-S(Z_{i},Z_{j})||^2\\ s.t. ZZ^{T}=mI$
其中 $Zi∈Rd×1Z_{i}\in R^{d\times 1}$ 表示样本 $X_{i}$ 在低维空间的表示，其中约束条件为规范化约束。 $S(Z_{i},Z_{j})$ 表示样本在低维空间的相似性度量，这里我们采用简单的度量 $S(Z_{i},Z_{j})=Z_{i}^TZ_{j}$ 。那么，目标函数可以简化为：
$\min \sum_{ij}||S_{ij}-Z_{i}^{T}Z_{j}||^2\Leftrightarrow \max SZ^{T}Z\\ s.t. ZZ^{T}=mI$
到此，目标函数已非常清晰，类似于谱聚类，把 $Z$ 看作由一维一维的向量构成，那么 $SZTZZT=λZTSZ^TZZ^T=\lambda Z^T$ ，目标函数问题就是 $S$ 的前 $d$ 个最大特征值， $Z$ 即为 $S$ 的最大特征值对应的特征向量构成的矩阵。

由SVD分解， $S=V∧VTS=V\wedge V^T$ ，其中 $∧ii\wedge_{ii}$ 为 $S$ 对应的前 $d$ 个最大特征值，为 $V$ 特征值对应的特征向量构成的矩阵，那么有：
$Z=\wedge^{1/2}V^T$
在确定投影空间的向量表示 $Z$ 之后，我们在回过头来求投影向量 $W$ 有：
$Z=W^TX$
其中 $W∈Rr×dW\in R^{r\times d}$ ，可见MDS是一个线性变换。在成对保持的思想下，换用不同的相似性度量可以导出不同的方法，另外添加不同的约束条件，也可以导出不同的方法，如哈希学习。

二、PCA（单点保持）

PCA是最常用的一种无监督数据降维方法，既可以进行特征提取，更一般用于数据可视化分析。众所周知，PCA有两种解释，最大方差解释，最小重构损失解释，最大方差解释是一种较合理性解释，即寻找方差最大的方法最能反映样本的区分度，信息量最大（相对而言，如果数据在某一维度都等于3，那么自然方差为0，信息量无意义）。但是在机器学习中，我们最常用的目标还是损失最小，所以个人觉得第二种解释才是PCA的根本，而最大方差解释更像是形象化解释。所以，我们从最小重构损失解释推导出最大方差解释：

假设有样本数据集 $X∈r×mX\in r\times m$ ，投影方向为 $w1,w2,.wi.,wd},wi∈Rr×dW=\{ w_{1},w_{2},.w_{i}.,w_{d}\},w_{i}\in R^{r\times d}$ ，其中 $w_{i}$ 是一组标准正交基，即 $∣∣wi∣∣2=1,wiTwj=0⇒WTW=I||w_{i}||^2=1,w_{i}^Tw_{j}=0 \Rightarrow W^TW=I$ ，那么在 $W$ 坐标系下，样本的数据集表示为 $Z∈Rd×mZ\in R^{d\times m}$