筛选重要特征的方法feature_importance_

本文介绍了如何使用Python进行特征重要性的分析与可视化,通过sklearn库获取模型的特征重要性,利用numpy和matplotlib库进行数据排序和绘图,展示了特征重要性排名,并提供了筛选重要特征的方法。

排列表示:

importances = model.feature_importances_ 
indices = np.argsort(importances)[::-1]
feat_labels = X_train.columns
print("Feature ranking:") 
#    l1,l2,l3,l4 = [],[],[],[]
for f in range(X_train.shape[1]):
    print("%d. feature no:%d feature name:%s (%f)" % (f + 1, indices[f], feat_labels[indices[f]], importances[indices[f]]))
print (">>>>>", importances)

画图:

feature_importance = model.feature_importances_
sorted_idx = np.argsort(feature_importance)

features_list = data.columns.values
plt.figure(figsize=(5,20))
plt.barh(range(len(sorted_idx)), feature_importance[sorted_idx], align='center')
plt.yticks(range(len(sorted_idx)), features_list[sorted_idx],)
plt.xlabel('Importance')
plt.title('Feature importances')
plt.draw()
plt.show()

筛选重要程度大于某个值的特征:

#将特征名称与对应的重要性数值做成dataframe
fea = pd.DataFrame()
fea['feature_name'] = feature_name
fea['value'] = feature_importance
fea.loc[fea['value'] >0 ]

#找出重要性为0的特征
fea_0 = fea.loc[fea['value'] == 0 ]['feature_name'].tolist()
fea_0
import pandas as pd import xgboost as xgb from sklearn.model_selection import train_test_split from sklearn.metrics import mean_squared_error import matplotlib matplotlib.use('TkAgg') # 或者使用 'Qt5Agg' import matplotlib.pyplot as plt from matplotlib import rcParams # 设置支持中文显示 plt.rcParams['font.sans-serif'] = ['SimHei'] # 黑体 plt.rcParams['axes.unicode_minus'] = False # 正常显示负号 # 1. 读取数据(示例:你应替换成自己的CSV或Excel数据) df = pd.read_excel(r"C:\Users\86139\桌面\数值\xgb.xlsx") # 或 pd.read_excel('your_data.xlsx') # 2. 设置自变量和因变量 X = df.drop(columns=['全国人口总数']) # 假设“全国人口总数”为目标列 y = df['全国人口总数'] # 3. 拆分训练和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 构建 XGBoost 模型并训练 model = xgb.XGBRegressor(objective='reg:squarederror', random_state=42) model.fit(X, y) # 获取特征重要性 feature_importances = model.get_booster().get_score(importance_type='gain') # 使用 'gain' 作为重要性指标 # 将特征重要性转换为 DataFrame feature_names = X.columns.tolist() feature_importance_df = pd.DataFrame({ 'Feature': feature_names, 'Importance': [feature_importances.get(f'f{i}', 0) for i in range(len(feature_names))] }) # 根据重要性排序 feature_importance_df = feature_importance_df.sort_values(by='Importance', ascending=False).reset_index(drop=True) # 打印特征重要性 print(feature_importance_df) # 设置阈值 threshold = 5 # 根据实际需求调整 # 筛选重要性大于阈值的特征 selected_features = feature_importance_df[feature_importance_df['Importance'] > threshold]['Feature'].tolist() # 输出筛选后的特征 print("Selected Features:", selected_features) # 绘制特征重要性图 plt.figure(figsize=(10, 6)) plt.barh(feature_importance_df['Feature'], feature_importance_df['Importance'], color='skyblue') plt.xlabel('Importance Score') plt.ylabel('Features') plt.title('Feature Importance (Gain)') plt.gca().invert_yaxis() # 将特征按重要性从高到低排列 plt.show() 为什么计算出来都是0,修改并给出完整代码
06-23
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值