经典理论:
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限
机器学习模型解决问题的主要步骤:
探索性数据分析
数据预处理
提取特征
切分训练集与验证集
训练模型
预测结果
GBDT 简介
一种集成学习算法,通过组合多棵决策树来构建一个强大的预测模型。它是集成学习中基于决策树的一个重要代表,具有优秀的预测性能和良好的泛化能力。GBDT 广泛应用于回归和分类问题,如预测房价、点击率预测、风险评估等。
LightGBM 简介
LightGBM(Light Gradient Boosting Machine)是一个高效的梯度提升框架,由微软开发,用于快速、分布式、高性能的基于决策树算法的梯度提升(GBDT,Gradient Boosting Decision Tree)。它在处理大数据和高维数据时表现出色,广泛应用于各种机器学习竞赛和实际生产环境中。
LightGBM 优缺点
| 优点 | 缺点 |
|---|---|
| 高效率和快速训练 | 对小数据集不友好 |
| 高准确性和模型性能 | 参数调优复杂 |
| 良好的扩展性 | 缺乏内置交叉验证 |
| 内存高效 | 不太适用于序列数据和图数据 |
特征工程
特征工程(Feature Engineering)是机器学习过程中的一项关键任务,它涉及从原始数据中提取、选择、转换和生成特征,以提高机器学习模型的性能。特征工程的质量直接影响到模型的准确性和效果。
历史平移特征:
历史平移特征是一种简单且直接的特征工程方法,不需要复杂的计算或算法,帮助模型捕捉时间序列中的依赖性或模式。它可以与其他特征组合使用,提高模型的表现。
窗口统计特征:
在时间序列或其他序列数据中,通过滑动窗口的方式计算的一组统计量,常见的窗口统计特征包括均值、方差、最大值、最小值、中位数等。窗口统计特征提供了多种不同尺度和角度的信息,有助于模型更好地理解和捕捉数据中的复杂模式。
使用示例
以 科大讯飞xDatawhale 的电力需求预测挑战赛为例,给定多个房屋对应电力消耗历史N天的相关序列数据等信息,预测房屋对应电力的消耗。预测结果以 mean square error 作为评判标准。
数据由训练集和测试集组成,数据字段如下表。
| 特征字段 | 字段描述 |
| id | 房屋id |
| dt | 日标识 |
| type | 房屋类型 |
| target | 实际电力消耗,预测目标 |
完整代码如下:
import numpy as np
import pandas as pd
import lightgbm as lgb
from sklearn.metrics import mean_squared_log_error, mean_absolute_error, mean_squared_error
import tqdm
import sys
import os
import gc
import argparse
import warnings
warnings.filterwarnings('ignore')
# 读取数据
train = pd.read_csv('dataset/train.csv')
test = pd.read_csv('dataset/test.csv')
# 合并训练数据和测试数据,并进行排序
data = pd.concat([test, train], axis=0, ignore_index=True)#按行连接
data = data.sort_values(['id','dt'], ascending=False).reset_index(drop=True)#按照 id 列和 dt 列进行降序排序,并重置行索引
# 历史平移特征
for i in range(10,30):
data[f'last{i}_target'] = data.groupby(['id'])['target'].shift(i) #对 data 数据帧的每个 id 分组进行处理,生成新的列,这些新列的值是 target 列的偏移值
# 窗口统计特征
data[f'win3_mean_target'] = (data['last10_target'] + data['last11_target'] + data['last12_target']) / 3 #创建了新列 win3_mean_target,其值是 last10_target、last11_target 和 last12_target 三列对应位置的值的平均值
# 进行数据切分
train = data[data.target.notnull()].reset_index(drop=True)
test = data[data.target.isnull()].reset_index(drop=True)
# 确定输入特征
train_cols = [f for f in data.columns if f not in ['id','target']]
def time_model(lgb, train_df, test_df, cols):
# 训练集和验证集切分
trn_x, trn_y = train_df[train_df.dt>=31][cols], train_df[train_df.dt>=31]['target'] #trn_x 和 trn_y 分别是训练特征和目标变量
val_x, val_y = train_df[train_df.dt<=30][cols], train_df[train_df.dt<=30]['target'] #val_x 和 val_y 分别是验证特征和目标变量
# 构建模型输入数据
train_matrix = lgb.Dataset(trn_x, label=trn_y)
valid_matrix = lgb.Dataset(val_x, label=val_y)
# lightgbm参数
lgb_params = {
'boosting_type': 'gbdt',#提升类型,使用梯度提升决策树(GBDT)
'objective': 'regression',#目标函数,使用回归
'metric': 'mse',#评估指标,使用均方误差(MSE)
'min_child_weight': 5, #定一个叶子节点上最小的样本权重和
'num_leaves': 2 ** 5,#树的最大叶子节点数
'lambda_l2': 10,# L2 正则化项权重,用于防止过拟合
'feature_fraction': 0.8,#每棵树训练前选择的特征比例,使用 80% 的特征来训练每棵树
'bagging_fraction': 0.8,#每棵树训练前随机选择的样本比例
'bagging_freq': 4,#每隔4次迭代执行一次 bagging
'learning_rate': 0.05,#控制每次迭代更新的步长
'seed': 2024,#随机数种子
'nthread' : 16,#使用的线程数
'verbose' : -1,#控制 LightGBM 的输出信息。-1 表示不输出信息,0 表示仅输出重要信息,1 表示输出所有信息
}
# 训练模型
model = lgb.train(lgb_params, train_matrix, 50000, valid_sets=[train_matrix, valid_matrix],
categorical_feature=[], callbacks = [lgb.log_evaluation(period=100), lgb.early_stopping(stopping_rounds=30)])
# 验证集和测试集结果预测
val_pred = model.predict(val_x, num_iteration=model.best_iteration)
test_pred = model.predict(test_df[cols], num_iteration=model.best_iteration)
# 离线分数评估
score = mean_squared_error(val_pred, val_y)
print(score)
return val_pred, test_pred
lgb_oof, lgb_test = time_model(lgb, train, test, train_cols)
# 保存结果文件到本地
test['target'] = lgb_test
test[['id','dt','target']].to_csv('submit.csv', index=None)
因为数据存在时序关系,所以需要严格按照时序进行切分。选择原始给出训练数据集中dt为30之后的数据作为训练数据,之前的数据作为验证数据。
输出结果如下:

参数调整
num_leaves:增加树的最大叶子节点数,可以增加模型的复杂度,有助于更好地拟合训练数据。需要注意,过大的值可能导致过拟合。
调整 num_leaves 为 2 ** 6,结果如下:

调整 num_leaves 为 2 ** 7,结果如下:

learning_rate:较小的学习率通常有助于模型更充分地学习数据的结构,但需要更多的迭代次数才能收敛。
调整 learning_rate 为 0.04,结果如下:

调整 learning_rate 为 0.03,结果如下:

相关链接
LightGBM 中文文档LightGBM 是一个梯度 boosting 框架, 使用基于学习算法的决策树. 它是分布式的, 高效的。
https://lightgbm.cn/Welcome to LightGBM’s documentation! — LightGBM 4.4.0.99 documentation
https://lightgbm.readthedocs.io/en/latest/






