1.方法
- Filter(过滤式):主要探究特征本身特点、特征与特征和目标值之间的关联
- 方差选择法:低方差特征过滤
- 相关系数
- Embedded(嵌入式) :算法自动选择特征(特征与目标值之间的关联)
- 决策树:信息熵、信息增益
- 正则化:L1、L2
- 深度学习:卷积等
2.过滤式
删除低方差的一些特征
- 特征方差小:某个特征大多样本的值比较相近
- 特征方差大:某个特征很多样本的值都有差别
3.低方差特征代码
import pandas as pd
from sklearn.feature_selection import VarianceThreshold
#低方差特征过滤
data=pd.read_csv('E:\学习\iris.csv')
#获取前三列
data=data.iloc[:,1:4]
#实例化一个转换器类
transfer=VarianceThreshold(threshold=1)
#调用fit_transform
data_new=transfer.fit_transform(data)
print(data)
print(data_new)
print(data_new.shape)
原数据三个特征值