机器学习一（4）特征降维与主成分_特征因子人工分析-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_37754696/article/details/109537889

学习目标
知道特征选择的嵌入式、过滤式以及包裹氏三种方式
应用VarianceThreshold实现删除低方差特征
了解相关系数的特点和计算
应用相关性系数实现特征选择

4.1 特征选择

数据中包含冗余或无关变量（或称特征、属性、指标等），旨在从原有特征中找出主要特征。
方法

Filter(过滤式)：主要探究特征本身特点、特征与特征和目标值之间关联
方差选择法：低方差特征过滤
相关系数- 特征与特征之间的相关程度
皮尔逊相关系数取值范围：–1≤ r ≤+1

                             特征与特征之间相关性很高,解决方法：
                                 1）选取其中一个
                                 2）加权求和
                                 3）主成分分析

Embedded (嵌入式)：算法自动选择特征（特征与目标值之间的关联）
决策树:信息熵、信息增益
正则化：L1、L2
深度学习：卷积等
模块sklearn.feature_selection

4.2过滤式

删除低方差的一些特征，如果特征方差小：某个特征大多样本的值比较相近
API：VarianceThreshold
简化数据分析的复杂程度

sklearn.feature_selection.VarianceThreshold(threshold = 0.0)
删除所有低方差特征
Variance.fit_transform(X)
X:numpy array格式的数据[n_samples,n_features]
返回值：训练集差异低于threshold的特征将被删除。默认值是保留所有非零方差特征，即删除所有样本中具有相同值的特征。

实例分析
对某些股票的指标特征之间进行一个筛选，数据在"factor_regression_data/factor_returns.csv"文件当中,除去’index,‘date’,'return’列不考虑（这些类型不匹配，也不是所需要指标）
分析
1、初始化VarianceThreshold,指定阀值方差

2、调用fit_transform

def variance_demo():
    #过滤低方差特征
    data=pd.read_csv('C:/Users/zyw/Desktop/机器学习/机器学习day1资料/02-代码/factor_returns.csv')
    print("data:\n", data)
    data=data.iloc[:,1:-2]#取所有行，第二列到倒数第二列，左闭右开
    print("data:\n", data)
    transfer=VarianceThreshold(threshold=10)
            #方差选择法，先要计算各个特征的方差，返回值为特征选择后的数据
            # #参数threshold为方差的阈值,然后根据阈值，选择方差大于阈值的特征。
    data_new=transfer.fit_transform(data)
    print('data_new:\n',data_new,data_new.shape)
    return None