Datawhale AI 夏令营——机器学习模型 lightgbm 入门-优快云博客

经典理论：

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限

机器学习模型解决问题的主要步骤：

探索性数据分析

数据预处理

提取特征

切分训练集与验证集

训练模型

预测结果

GBDT 简介

一种集成学习算法，通过组合多棵决策树来构建一个强大的预测模型。它是集成学习中基于决策树的一个重要代表，具有优秀的预测性能和良好的泛化能力。GBDT 广泛应用于回归和分类问题，如预测房价、点击率预测、风险评估等。

LightGBM 简介

LightGBM（Light Gradient Boosting Machine）是一个高效的梯度提升框架，由微软开发，用于快速、分布式、高性能的基于决策树算法的梯度提升（GBDT，Gradient Boosting Decision Tree）。它在处理大数据和高维数据时表现出色，广泛应用于各种机器学习竞赛和实际生产环境中。

LightGBM 优缺点

优点	缺点
高效率和快速训练	对小数据集不友好
高准确性和模型性能	参数调优复杂
良好的扩展性	缺乏内置交叉验证
内存高效	不太适用于序列数据和图数据

特征工程

特征工程（Feature Engineering）是机器学习过程中的一项关键任务，它涉及从原始数据中提取、选择、转换和生成特征，以提高机器学习模型的性能。特征工程的质量直接影响到模型的准确性和效果。

历史平移特征：

历史平移特征是一种简单且直接的特征工程方法，不需要复杂的计算或算法，帮助模型捕捉时间序列中的依赖性或模式。它可以与其他特征组合使用，提高模型的表现。

窗口统计特征：

在时间序列或其他序列数据中，通过滑动窗口的方式计算的一组统计量，常见的窗口统计特征包括均值、方差、最大值、最小值、中位数等。窗口统计特征提供了多种不同尺度和角度的信息，有助于模型更好地理解和捕捉数据中的复杂模式。

使用示例

以科大讯飞xDatawhale 的电力需求预测挑战赛为例，给定多个房屋对应电力消耗历史N天的相关序列数据等信息，预测房屋对应电力的消耗。预测结果以 mean square error 作为评判标准。

数据由训练集和测试集组成，数据字段如下表。

特征字段	字段描述
id	房屋id
dt	日标识
type	房屋类型
target	实际电力消耗，预测目标

完整代码如下：

import numpy as np
import pandas as pd
import lightgbm as lgb
from sklearn.metrics import mean_squared_log_error, mean_absolute_error, mean_squared_error
import tqdm
import sys
import os
import gc
import argparse
import warnings
warnings.filterwarnings('ignore')

# 读取数据
train = pd.read_csv('dataset/train.csv')
test = pd.read_csv('dataset/test.csv')


# 合并训练数据和测试数据，并进行排序
data = pd.concat([test, train], axis=0, ignore_index=True)#按行连接
data = data.sort_values(['id','dt'], ascending=False).reset_index(drop=True)#按照 id 列和 dt 列进行降序排序，并重置行索引

# 历史平移特征
for i in range(10,30):
    data[f'last{i}_target'] = data.groupby(['id'])['target'].shift(i) #对 data 数据帧的每个 id 分组进行处理，生成新的列，这些新列的值是 target 列的偏移值
    
# 窗口统计特征
data[f'win3_mean_target'] = (data['last10_target'] + data['last11_target'] + data['last12_target']) / 3 #创建了新列 win3_mean_target，其值是 last10_target、last11_target 和 last12_target 三列对应位置的值的平均值

# 进行数据切分
train = data[data.target.notnull()].reset_index(drop=True)
test = data[data.target.isnull()].reset_index(drop=True)

# 确定输入特征
train_cols = [f for f in data.columns if f not in ['id','target']]

def time_model(lgb, train_df, test_df, cols):
    # 训练集和验证集切分
    trn_x, trn_y = train_df[train_df.dt>=31][cols], train_df[train_df.dt>=31]['target'] #trn_x 和 trn_y 分别是训练特征和目标变量
    val_x, val_y = train_df[train_df.dt<=30][cols], train_df[train_df.dt<=30]['target'] #val_x 和 val_y 分别是验证特征和目标变量
    # 构建模型输入数据
    train_matrix = lgb.Dataset(trn_x, label=trn_y)
    valid_matrix = lgb.Dataset(val_x, label=val_y)
    # lightgbm参数
    lgb_params = {
        'boosting_type': 'gbdt',#提升类型，使用梯度提升决策树（GBDT）
        'objective': 'regression',#目标函数，使用回归
        'metric': 'mse',#评估指标，使用均方误差（MSE）
        'min_child_weight': 5, #定一个叶子节点上最小的样本权重和
        'num_leaves': 2 ** 5,#树的最大叶子节点数
        'lambda_l2': 10,# L2 正则化项权重，用于防止过拟合
        'feature_fraction': 0.8,#每棵树训练前选择的特征比例，使用 80% 的特征来训练每棵树
        'bagging_fraction': 0.8,#每棵树训练前随机选择的样本比例
        'bagging_freq': 4,#每隔4次迭代执行一次 bagging
        'learning_rate': 0.05,#控制每次迭代更新的步长
        'seed': 2024,#随机数种子
        'nthread' : 16,#使用的线程数
        'verbose' : -1,#控制 LightGBM 的输出信息。-1 表示不输出信息，0 表示仅输出重要信息，1 表示输出所有信息
    }
    # 训练模型
    model = lgb.train(lgb_params, train_matrix, 50000, valid_sets=[train_matrix, valid_matrix], 
                      categorical_feature=[], callbacks = [lgb.log_evaluation(period=100), lgb.early_stopping(stopping_rounds=30)])
    # 验证集和测试集结果预测
    val_pred = model.predict(val_x, num_iteration=model.best_iteration)
    test_pred = model.predict(test_df[cols], num_iteration=model.best_iteration)
    # 离线分数评估
    score = mean_squared_error(val_pred, val_y)
    print(score)
       
    return val_pred, test_pred
    
lgb_oof, lgb_test = time_model(lgb, train, test, train_cols)

# 保存结果文件到本地
test['target'] = lgb_test
test[['id','dt','target']].to_csv('submit.csv', index=None)

因为数据存在时序关系，所以需要严格按照时序进行切分。选择原始给出训练数据集中dt为30之后的数据作为训练数据，之前的数据作为验证数据。

输出结果如下：