机器学习算法中 GBDT 和 XGBOOST 的区别有哪些?

转知乎wepon大神帖子:https://www.zhihu.com/question/41354392

看了陈天奇大神的文章和slides,略抒己见,没有面面俱到,不恰当的地方欢迎讨论:传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。传统GBDT在优化时只用到一阶导数信息,xgboost则对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数。顺便提一下,xgboost工具支持自定义代价函数,只要函数可一阶和二阶求导。
xgboost在代价函数里加入了正则项,用于控制模型的复杂度。正则项里包含了树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和。从Bias-variance tradeoff角度来讲,正则项降低了模型的variance,使学习出来的模型更加简单,防止过拟合,这也是xgboost优于传统GBDT的一个特性。
Shrinkage(缩减),相当于学习速率(xgboost中的eta)。xgboost在进行完一次迭代后,会将叶子节点的权重乘上该系数,主要是为了削弱每棵树的影响,让后面有更大的学习空间。实际应用中,一般把eta设置得小一点,然后迭代次数设置得大一点。(补充:传统GBDT的实现也有学习速率)
列抽样(column subsampling)。xgboost借鉴了随机森林的做法,支持列抽样,不仅能降低过拟合,还能减少计算,这也是xgboost异于传统gbdt的一个特性。对缺失值的处理。对于特征的值有缺失的样本,xgboost可以自动学习出它的分裂方向。
xgboost工具支持并行。boosting不是一种串行的结构吗?怎么并行的?注意xgboost的并行不是tree粒度的并行,xgboost也是一次迭代完才能进行下一次迭代的(第t次迭代的代价函数里包含了前面t-1次迭代的预测值)。xgboost的并行是在特征粒度上的。我们知道,决策树的学习最耗时的一个步骤就是对特征的值进行排序(因为要确定最佳分割点),xgboost在训练之前,预先对数据进行了排序,然后保存为block结构,后面的迭代中重复地使用这个结构,大大减小计算量。这个block结构也使得并行成为了可能,在进行节点的分裂时,需要计算每个特征的增益,最终选增益最大的那个特征去做分裂,那么各个特征的增益计算就可以开多线程进行。可并行的近似直方图算法。树节点在进行分裂时,我们需要计算每个特征的每个分割点对应的增益,即用贪心法枚举所有可能的分割点。当数据无法一次载入内存或者在分布式情况下,贪心算法效率就会变得很低,所以xgboost还提出了一种可并行的近似直方图算法,用于高效地生成候选的分割点。

回复 @肖岩在评论里的问题,因为有些公式放正文比较好。评论里讨论的问题的大意是 “xgboost代价函数里加入正则项,是否优于cart的剪枝”。其实陈天奇大神的slides里面也是有提到的,我当一下搬运工。决策树的学习过程就是为了找出最优的决策树,然而从函数空间里所有的决策树中找出最优的决策树是NP-C问题,所以常采用启发式(Heuristic)的方法,如CART里面的优化GINI指数、剪枝、控制树的深度。这些启发式方法的背后往往隐含了一个目标函数,这也是大部分人经常忽视掉的。xgboost的目标函数如下:
在这里插入图片描述
其中正则项控制着模型的复杂度,包括了叶子节点数目T和leaf score的L2模的平方:
在这里插入图片描述
那这个跟剪枝有什么关系呢???
跳过一系列推导,我们直接来看xgboost中树节点分裂时所采用的公式:
在这里插入图片描述
这个公式形式上跟ID3算法(采用entropy计算增益) 、CART算法(采用gini指数计算增益) 是一致的,都是用分裂后的某种值 减去 分裂前的某种值,从而得到增益。为了限制树的生长,我们可以加入阈值,当增益大于阈值时才让节点分裂,上式中的gamma即阈值,它是正则项里叶子节点数T的系数,所以xgboost在优化目标函数的同时相当于做了预剪枝。另外,上式中还有一个系数lambda,是正则项里leaf score的L2模平方的系数,对leaf score做了平滑,也起到了防止过拟合的作用,这个是传统GBDT里不具备的特性。

<think>好的,我现在需要帮助用户解决使用Python进行数据清洗,并通过GBDTXGBoost算法实现房价预测的问题。首先,我需要理解用户的具体需求。用户提到了数据清洗两个机器学习算法,可能对房价预测的流程不太熟悉,所以需要一步步指导。 首先,数据清洗是机器学习项目中的重要步骤,用户可能不清楚如何处理缺失值、异常值等。我需要先介绍数据清洗的常见步骤,比如处理缺失值、去除重复数据、特征工程等。然后,用户可能需要对数据进行特征处理,比如标准化、分箱等,这部分也需要详细说明。 接下来是模型训练部分,用户提到了GBDTXGBoost。这两个都是基于决策树的集成算法,但XGBoost在效率性能上有所优化。我需要解释这两个算法的基本概念,并给出如何在Python中实现的示例代码。同时,用户可能需要知道如何调参评估模型,所以需要包括交叉验证评估指标,比如MAE、RMSE等。 用户提供的引用中有几个相关的资料,比如引用[1]提到使用Python爬虫获取数据,引用[2][3]讨论了XGBoost房价预测模型。我需要确保回答中合理引用这些内容,尤其是在数据来源模型应用方面。 此外,用户可能对整个流程的步骤不太清楚,需要将过程分解为数据清洗、特征处理、模型训练与评估等阶段,每个阶段给出具体的代码示例解释。比如,数据清洗部分可以用Pandas处理缺失值,特征工程部分可能需要使用Scikit-learn的预处理模块。 还需要注意代码的正确性可读性,确保用户能够顺利运行。例如,在数据清洗时,展示如何用fillna处理缺失值,或者用SimpleImputer进行填充。在模型部分,导入相应的库,并给出训练预测的代码片段。 另外,用户可能需要了解如何保存加载模型,以便后续使用,所以可以简要提到使用joblib或pickle进行模型持久化。同时,超参数调优部分,如GridSearchCV,也应该提及,帮助用户提升模型性能。 最后,生成的相关问题需要考虑用户可能的后续疑问,比如数据特征的重要性分析、模型优化方法、处理过拟合等,这些问题可以帮助用户进一步深入学习。 总结一下,回答的结构应该包括数据清洗、特征处理、模型训练与评估、结果可视化等步骤,每个部分提供代码示例解释,并引用相关的资料支持内容。同时,确保语言简洁明了,符合中文表达习惯,避免使用复杂术语,让用户容易理解操作。</think>根据您的研究方向,以下是完整的实现流程及代码示例: 一、数据清洗关键步骤 1. 缺失值处理: ```python import pandas as pd # 删除缺失率超过50%的特征 df = df.loc[:, df.isnull().mean() < 0.5] # 数值型用中位数填充 df.fillna(df.median(), inplace=True) # 类别型用众数填充 from sklearn.impute import SimpleImputer imputer = SimpleImputer(strategy='most_frequent') cat_cols = ['district', 'house_type'] df[cat_cols] = imputer.fit_transform(df[cat_cols]) ``` 2. 异常值处理(以面积为例): ```python # 保留3σ范围内的数据 mean = df['area'].mean() std = df['area'].std() df = df[(df['area'] > mean - 3*std) & (df['area'] < mean + 3*std)] ``` 二、特征工程实现 ```python from sklearn.preprocessing import StandardScaler, OneHotEncoder from sklearn.compose import ColumnTransformer # 数值特征标准化 num_features = ['area', 'floor'] # 类别特征独热编码 cat_features = ['district', 'orientation'] preprocessor = ColumnTransformer( transformers=[ ('num', StandardScaler(), num_features), ('cat', OneHotEncoder(handle_unknown='ignore'), cat_features)]) ``` 三、GBDT/XGBoost模型实现 ```python from sklearn.ensemble import GradientBoostingRegressor from xgboost import XGBRegressor from sklearn.model_selection import train_test_split # 数据划分 X = preprocessor.fit_transform(df) y = df['price'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) # GBDT模型 gbdt = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1) gbdt.fit(X_train, y_train) # XGBoost模型(包含GPU加速配置) xgb = XGBRegressor( n_estimators=1000, max_depth=5, learning_rate=0.01, subsample=0.8, colsample_bytree=0.8, tree_method='gpu_hist' # GPU加速 ) xgb.fit(X_train, y_train) ``` 四、模型评估与优化 ```python from sklearn.metrics import mean_absolute_error, r2_score # 评估函数 def evaluate(model, X, y): pred = model.predict(X) print(f'MAE: {mean_absolute_error(y, pred):.2f}') print(f'R²: {r2_score(y, pred):.2f}') print("GBDT测试集表现:") evaluate(gbdt, X_test, y_test) print("\nXGBoost测试集表现:") evaluate(xgb, X_test, y_test) # 特征重要性可视化(以XGBoost为例) import matplotlib.pyplot as plt from xgboost import plot_importance plot_importance(xgb) plt.show() ``` 五、模型部署建议 1. 使用`joblib`保存最佳模型: ```python import joblib joblib.dump(xgb, 'best_house_price_model.pkl') ``` 2. 超参数优化示例: ```python from sklearn.model_selection import GridSearchCV param_grid = { 'max_depth': [3,5,7], 'learning_rate': [0.01, 0.1], 'subsample': [0.6, 0.8] } grid_search = GridSearchCV(xgb, param_grid, cv=5) grid_search.fit(X_train, y_train) print(f"最优参数: {grid_search.best_params_}") ``` 研究显示,在房价预测任务中,XGBoost通过正则化项并行计算优化,相比传统GBDT通常能获得更好的预测精度(约提升3-5% R²值)[^2][^3]。同时,特征工程阶段的地理位置编码(如转换为经纬度坐标)可显著提升模型对空间特征的捕获能力[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值