22.【进阶】流行库模型--XGBoost

最新推荐文章于 2024-09-13 22:26:19 发布

jho9o5

最新推荐文章于 2024-09-13 22:26:19 发布

阅读量377

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习实战文章标签：机器学习 XGBoost 集成模型(分类)

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.youkuaiyun.com/jh1137921986/article/details/79833554

机器学习实战专栏收录该内容

32 篇文章

订阅专栏

本文通过泰坦尼克号乘客生存预测案例，对比了XGBoost与随机森林两种模型的预测性能。实验结果显示，虽然两者表现相近，但XGBoost在准确性上略胜一筹。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

XGBoost模型

Boosting 分类器属于集成学习模型，它的基本思想是把成百上千个分类准确性较低的树模型组合起来，成为一个准确率很高的模型；
特点是不断迭代，每次迭代完成生成一棵新的树，如何在每一步生成合理的树，有许多不同的方法，比如Gradient Tree Boosting，在生成每一棵树的时候，采用梯度下降的思想，以之前生成的所有决策树为基础，向着minimize目标函数的方向再进一步；
往往需要生成一定数量的树才能达到令人满意的准确率，在数据集较大较复杂的时候，模型可能需要几千次迭代运算，于是我们通过XGBoost工具来解决这个问题；
XGBoost全称eXtreme Gradient Boosting，它是Gradient Boosting Machine的一个C++实现，最大特点是能够自动利用CPU的多线程进行并行运算，在算法上也加以改进提高了精度。

#-*- coding:utf-8 -*-

#对比随机决策森林和XGBoost模型对泰坦尼克号的乘客是否生还的预测能力

import pandas as pd 
titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')
#根据分析，我们认为sex,age,pclass这些特征都很有可能成为决定幸免与否的决定性因素
X = titanic[['pclass','sex','age']]
y = titanic['survived']
#填充age的缺失值，用平均值来代替
X['age'].fillna(X['age'].mean(),inplace=True)
#对原始数据进行分割
from sklearn.cross_validation import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.25,random_state=33)
#这里导入的是DictVectorizer，作用是将符号化特征，转成数字型0/1表示
from sklearn.feature_extraction import DictVectorizer
#sparse=False指不用稀疏矩阵表示
vec = DictVectorizer(sparse=False) 
#向量化，类别型特征转成0/1型
X_train = vec.fit_transform(X_train.to_dict(orient='record'))
X_test = vec.fit_transform(X_test.to_dict(orient='record'))

#1.采用默认配置的随机森林进行预测
from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier()
rfc.fit(X_train,y_train)
y_rfc_predict = rfc.predict(X_test)
print 'The accuracy of rfc on testing set is',rfc.score(X_test,y_test)
#The accuracy of rfc on testing set is 0.77811550152

#2.采用默认配置的XGBoost进行预测
from xgboost import XGBClassifier
xgbc = XGBClassifier()
xgbc.fit(X_train,y_train)
print 'The accuracy of xgbc on testing set is',xgbc.score(X_test,y_test)
#The accuracy of xgbc on testing set is 0.787234042553