sklearn中GBDT的一些参数、属性、方法的理解

该博客详细介绍了GBDT分类器的重要参数,包括loss、learning_rate、subsample等,并提供了调参建议。同时提到了GBDT回归器的区别在于loss和criterion。通过理解这些参数,有助于优化模型性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


本文主要是sklearn中GBDT的一些参数、属性、方法的理解,如果需要了解基础的理论知识,可以看看之前发表的文章: 梯度提升树(GBDT)相关知识

GBDT 分类器

引入

from sklearn.ensemble import GradientBoostingClassifier
# 全部参数
GradientBoostingClassifier(ccp_alpha=0.0, criterion='friedman_mse', init=None,
                           learning_rate=0.1, loss='deviance', max_depth=3,
                           max_features=None, max_leaf_nodes=None,
                           min_impurity_decrease=0.0, min_impurity_split=None,
                           min_samples_leaf=1, min_samples_split=2,
                           min_weight_fraction_leaf=0.0, n_estimators=
### 使用GBDT算法实现工业园区碳排放核算 #### 数据准备与预处理 为了使用梯度提升决策树(Gradient Boosting Decision Tree, GBDT)来预测或分析工业园区内的碳排放情况,首先要收集并整理相关数据集。这些数据通常包括但不限于各个工厂的生产量、能源消耗种类及数量、设备运行时间等特征变量[^1]。 ```python import pandas as pd # 假设已有一个CSV文件包含了上述提到的数据字段 data = pd.read_csv('industrial_park_emission_data.csv') print(data.head()) ``` #### 特征工程 针对特定行业特点构建有效的输入特征对于提高模型准确性至关重要。这一步骤可能涉及创建新的衍生属性(例如单位产品能耗)、去除异常值以及标准化数值范围等工作[^3]。 ```python from sklearn.preprocessing import StandardScaler # 对选定的一些连续型特征做标准缩放转换 scaler = StandardScaler() scaled_features = scaler.fit_transform(data[['energy_consumption', 'production_volume']]) data['scaled_energy'] = scaled_features[:, 0] data['scaled_production'] = scaled_features[:, 1] # 移除明显错误的数据点 cleaned_data = data[(data['carbon_emission'] >= 0)] ``` #### 构建与训练GBDT模型 利用经过清洗和增强后的高质量样本集合来进行机器学习过程中的监督式学习阶段——即通过历史记录教导计算机理解不同因素之间存在的关系模式,并据此建立能够对未来事件做出合理推测的能力[^2]。 ```python from sklearn.model_selection import train_test_split from sklearn.ensemble import GradientBoostingRegressor # 将数据分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split( cleaned_data.drop(['carbon_emission'], axis=1), cleaned_data['carbon_emission'], test_size=0.2, random_state=42) # 初始化GBDT回归器对象 gbdt_model = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42) # 训练模型 gbdt_model.fit(X_train, y_train) ``` #### 模型评估与优化 完成初步拟合之后还需要进一步验证其泛化性能的好坏程度;可以通过交叉验证方法获取更加稳健的结果估计值,并尝试调整超参数设置以期获得更优解。 ```python from sklearn.metrics import mean_squared_error predictions = gbdt_model.predict(X_test) mse = mean_squared_error(y_test, predictions) rmse = mse ** 0.5 print(f'Root Mean Squared Error on Test Set: {rmse:.2f}') ``` #### 应用实例展示 假设某市环保局希望借助本项目成果辅助制定减排政策,则可以基于所开发出来的工具快速计算出各类企业预计产生的温室气体总量,从而有针对性地采取措施降低整体环境影响水平。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值