- 学习目标
知道特征选择的嵌入式、过滤式以及包裹氏三种方式
应用VarianceThreshold实现删除低方差特征
了解相关系数的特点和计算
应用相关性系数实现特征选择
4.1 特征选择
-
数据中包含冗余或无关变量(或称特征、属性、指标等),旨在从原有特征中找出主要特征。
-
方法
-
Filter(过滤式):主要探究特征本身特点、特征与特征和目标值之间关联
方差选择法:低方差特征过滤
相关系数- 特征与特征之间的相关程度
皮尔逊相关系数取值范围:–1≤ r ≤+1特征与特征之间相关性很高,解决方法: 1)选取其中一个 2)加权求和 3)主成分分析
-
Embedded (嵌入式):算法自动选择特征(特征与目标值之间的关联)
决策树:信息熵、信息增益
正则化:L1、L2
深度学习:卷积等 -
模块sklearn.feature_selection
4.2过滤式
- 删除低方差的一些特征,如果特征方差小:某个特征大多样本的值比较相近
- API:VarianceThreshold
简化数据分析的复杂程度
sklearn.feature_selection.VarianceThreshold(threshold = 0.0)
删除所有低方差特征
Variance.fit_transform(X)
X:numpy array格式的数据[n_samples,n_features]
返回值:训练集差异低于threshold的特征将被删除。默认值是保留所有非零方差特征,即删除所有样本中具有相同值的特征。
-
实例分析
-
对某些股票的指标特征之间进行一个筛选,数据在"factor_regression_data/factor_returns.csv"文件当中,除去’index,‘date’,'return’列不考虑(这些类型不匹配,也不是所需要指标)
-
分析
1、初始化VarianceThreshold,指定阀值方差2、调用fit_transform
def variance_demo():
#过滤低方差特征
data=pd.read_csv('C:/Users/zyw/Desktop/机器学习/机器学习day1资料/02-代码/factor_returns.csv')
print("data:\n", data)
data=data.iloc[:,1:-2]#取所有行,第二列到倒数第二列,左闭右开
print("data:\n", data)
transfer=VarianceThreshold(threshold=10)
#方差选择法,先要计算各个特征的方差,返回值为特征选择后的数据
# #参数threshold为方差的阈值,然后根据阈值,选择方差大于阈值的特征。
data_new=transfer.fit_transform(data)
print('data_new:\n',data_new,data_new.shape)
return None
4.3相关系数:皮尔逊相关系数
-
反映变量之间相关关系密切程度的统计指标