day2

本文对比了随机森林、GBDT、LightGBM和XGBoost四种机器学习模型在特定数据集上的表现,使用score和AUC两种评估指标进行评分。通过实验发现模型在分类准确率和AUC值上存在显著差异,揭示了类别不平衡对模型性能的影响。同时,利用XGBoost探索了特征的重要性,为后续的特征工程提供了指导。

读取数据集,并对数据集37分

import pandas as pd
data_all=pd.read_csv(r'C:\Users\lxy\Desktop\input\data_all.csv')
from sklearn.model_selection import train_test_split
features=[x for x in data_all.columns if x not in ['status']]
x=data_all[features]
y=data_all['status']
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.3,random_state=2018)

随机森林

#score评分
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(oob_score=True, random_state=2018)
rf_model=rf.fit(x_train,y_train)
rf_model.score(x_test,y_test)
0.7708479327259986
#auc评分
rf_pre_test=rf_model.predict(x_test)
rf_auc_auc = roc_auc_score(y_test,rf_pre_test)
rf_auc_auc
0.6028175956934055

GBDT

#score
from sklearn.ensemble import GradientBoostingClassifier
gbdt=GradientBoostingClassifier(random_state=2018)
gbdt_model=gbdt.fit(x_train,y_train)
gbdt_model.score(x_test,y_test)
0.7806587245970568
#auc
gbdt_pre_test=rf_model.predict(x_test)
gbdt_auc_auc = roc_auc_score(y_test,rf_pre_test)
gbdt_auc_auc
0.6028175956934055

lightgbm

import lightgbm as lgb
lgb_model = lgb.LGBMClassifier(boosting_type='gbdt',random_state=2018)
lgb_acc=lgb_model.fit(x_train,y_train)
lgb_acc.score(x_train,y_train)
0.7701471618780659
#auc评分
lgb_pre_test=lgb_acc.predict(x_test)
lgb_auc=roc_auc_score(y_test,lgb_pre_test)
lgb_auc
0.6310118097503468

xgboost

from xgboost.sklearn import XGBClassifier
from sklearn.metrics import precision_score,roc_auc_score
xgbc = XGBClassifier(random_state=2018)
xgbc.fit(x_train,y_train)
xgbc.score(x_test,y_test)
0.7855641205325858
#auc
pre_test = xgbc.predict(x_test)
auc_score = roc_auc_score(y_test,pre_test)
auc_score
0.6431606209508309

利用xgboost对特征初探

from xgboost import plot_importance
import matplotlib.pyplot as plt
fig,ax = plt.subplots(figsize=(15,15))
plot_importance(xgbc,
                height=0.5,
                ax=ax,
                max_num_features=20)

在这里插入图片描述

这次我用了两种评分算法,score和auc,发现两者差距蛮大的,此时分类的score算法他的原理是accuracy_score函数。就是分类正确的/分类错误的。而auc的原理在我的一篇博客也写的很清楚,在类别不平衡下他的分更具有参考价值。然后看了一下确实不平衡。最后写了xgboost正好看下特征前20个重要度。为后面特征工程提供一点帮助

random_state控制了每次的随机,保证我们的结果一样方便我们调参

假设用户输入的 `N` 值为 8,以下是 `else if(N>1)` 部分的运行过程: #### 初始状态 ```c count = 1; day = 2; day1 = 1; day2 = 1; ``` 此时,已经经过了 2 天,当前兔子数量 `count` 为 1。 #### 第一次循环 - `count = day1 + day2`:`count = 1 + 1 = 2` - `day1 = day2`:`day1` 变为 1 - `day2 = count`:`day2` 变为 2 - `day++`:`day` 变为 3 此时,经过了 3 天,当前兔子数量 `count` 为 2。 #### 第二次循环 - `count = day1 + day2`:`count = 1 + 2 = 3` - `day1 = day2`:`day1` 变为 2 - `day2 = count`:`day2` 变为 3 - `day++`:`day` 变为 4 此时,经过了 4 天,当前兔子数量 `count` 为 3。 #### 第三次循环 - `count = day1 + day2`:`count = 2 + 3 = 5` - `day1 = day2`:`day1` 变为 3 - `day2 = count`:`day2` 变为 5 - `day++`:`day` 变为 5 此时,经过了 5 天,当前兔子数量 `count` 为 5。 #### 第四次循环 - `count = day1 + day2`:`count = 3 + 5 = 8` - `day1 = day2`:`day1` 变为 5 - `day2 = count`:`day2` 变为 8 - `day++`:`day` 变为 6 此时,经过了 6 天,当前兔子数量 `count` 为 8,满足 `count >= N` 的条件,循环结束。 最终输出的 `day` 值为 6,表示达到 8 只兔子需要 6 天。 ```c #include<stdio.h> int main() { int N = 8; int day = 0; int day1 = 1; int day2 = 1; int count; if (N == 1) { day = 1; } else if (N > 1) { count = 1; day = 2; while (count < N) { count = day1 + day2; day1 = day2; day2 = count; day++; } } printf("%d", day); return 0; } ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值