python 特征筛选

最新推荐文章于 2023-10-31 20:37:10 发布

wei_liao

最新推荐文章于 2023-10-31 20:37:10 发布

阅读量1.9k

点赞数

分类专栏： python

本文链接：https://blog.youkuaiyun.com/weixin_41358871/article/details/100050277

版权

本文详细探讨了Python中用于特征筛选的各种技术，包括基于统计的方法（如方差阈值、互信息）、基于模型的方法（如递归特征消除）以及如何在实际机器学习项目中应用这些方法来提高模型性能。通过实例代码，读者可以了解到如何有效地从大量特征中挑选出最相关的特征，以减少过拟合风险并优化模型训练速度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >


#特征初筛
#如果是分类问题：对于分类变量，分析较多类的变迁分布是否差异明显，此类变量不删除
#这里回归问题 则 不考虑
def Remove_singleValue_var(df,var_list):
    # 变量取值同一性，删除
    Sigle_var = [i for i in df
                      if df[i].value_counts().sort_values(ascending=False)
                      .values[0]/len(df) > 0.99]
    return Sigle_var


def Remove_low_variance(df,var_list,std_lower=1):
    
    low_variance_var=[]
    for i in var_list:
        if  (len(df[i].value_counts())>10) and (df[i].std()<std_lower):
            low_variance_var.append(i)
    
    return low_variance_var
            
    
#树模型重要度特征选择
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import KFold
def Select_feature(df,label,col_num=100,n_folds=3):
    #X是不含id 的數據，X=self.allldata[:len(self.train)]
    '''使用extra tree 进行特征选择'''
    '''param:data 数据'''
    '''param:col_num 每