特征工程精要-优快云博客

本文链接：https://blog.youkuaiyun.com/Json111/article/details/105775680

本文深入解析特征工程的核心概念，包括特征工程的意义、特征选择与预处理的方法，以及特征构造的过程。探讨了数据预处理的标准化、归一化与离散化技术，特征选择的Filter、Wrapper和Embedded策略，并介绍了降维的主成分分析与线性判别分析法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

More data beats clever algorithms, but better data beats more data.

特征工程算是一个如何展示和表现数据的问题，在实际工作中需要把数据以一种良好的方式展现出来，使得能够使用各种各样的机器学习模型来得到更好的效果。如何从原始数据中去除不佳的数据，展示合适的数据就成为了特征工程的关键问题。

一个特征是否重要主要在于该特征与要预测的东西是否是高度相关的，如果是高度相关，那么该特征就是十分重要的。

确定问题-数据整合-数据预处理-特征的构造

通过特征提取可以得到未经处理的特征，此时特征可能有以下问题：

不属于同一量纲：即特征的规格不一样，不能够放在一起比较。
信息冗余：对于某些定量特征，其包含的有效信息为区间划分，可用离散化处理。
定性特征不能直接使用：某些ML算法和model只能接收定量特征的输入，那么需要将定性特征转换为定量特征。使用one-hot编码。
存在缺失值：缺失值需要补充
信息利用率低：不同的算法和模型对数据中信息的利用是不同的，在线性模型中，使用定性特征哑编码可以达到非线性的效果。类似地，对定量变量多项式化等转换都可达到非线性的效果。

当数据预处理完成后，需要选择有意义的特征输入到机器学习算法和模型上进行训练。通常从两个方面考虑来选择特征：

根据特征选择的形式又可将特征选择方法分为3种：

Filter：过滤法，按照发散性或相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。
Wrapper：包装法，根据目标函数，每次选择若干特征，或者排除若干特征。
Embedded：集成法，先使用某些Machine Learning的算法和Model进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。类似与Filter方法，但是是通过训练来确定特征的优劣。

Filter