特征工程中常用技术所涉及到的方法——特征选择、降维和不平衡数据处理_数据预处理、特征选择、特征构造、特征降维等-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_46310648/article/details/117196606

前言

随着信息时代数据量的快速增加，一门通过对大量数据进行分析，以发现和提取隐含在其中的具有价值的信息和知识的学科——数据挖掘发展起来。

提示：以下是本篇文章正文内容，主要介绍特征工程中常用技术所涉及到的方法，特征选择、降维和不平衡数据处理

一、特征选择

概念：特征选择是从原始特征中挑选出一组最有代表性、分类性能好的特征子集。

作用：特征选择可以降低维数灾难出现的可能；去除不相关特征，降低学习难度。

原则：

1、特征是否发散：如果不发散，说明特征对样本的区分作用不高

2、特征之间的相关性：去除相关性高的特征

3、特征与目标的相关性：优先选择相关性高的特征

常用方法：

1、特征减少(机器学习的剪枝？)

单变量特征选择方法：filter（过滤法）

方差选择法
相关系数法
卡方检验（这个不太理解，显著性水平p？）

基于模型的特征选择方法：

Wrapper（包装法）：确定算法模型后，把模型本身的性能作为评价准则。需要结合后续的机器学习算法，选择出使性能最优的特征子集。根据目标函数，每次选择或排除部分特征。常用递归特征消除法(Recursive Feature Elimination, REF)
Embedded（嵌入法）

在sklearn中，用SelectFromModel来选择特征，常用嵌入法技术有：

2.1 基于线性回归模型方法

2.2 基于L1的正则化方法（容易获得稀疏数据）

2.3 基于随机森林的嵌入方法

#基于惩罚项的特征选择法
from sklearn.feature_selection import SelectFromModel
from sklearn.linear_model import LogisticRegression
#带L1惩罚项的逻辑回归作为基模型的特征选择
SelectFromModel(LogisticRegression(penalty='l1',C=0.1)).fit_transform(iris.data,iris.target)
#通过加入penalty，将许多系数压缩至0以实现特征筛选

#基于树模型的特征选择法
#树模型中的GBDT也可用来作为基模型
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import GradientBoostingClassifier
SelectFromModel(GradientBoostingClassifier()).fit_transform(iris.data,iris.target)

2、特征扩增