LightGBM模型与数据处理策略
关键要点
- 竞赛目标是预测10个新能源电站的功率输出,基于气象和历史数据,研究表明这对能源管理至关重要。
- 数据包括气象变量(如风速、辐射)和功率输出,证据显示这些数据需处理以提高预测准确性。
- baseline使用LightGBM模型,数据处理涉及空间平均和时间序列整合,研究表明其效率高但有优化空间。
- 评估指标为RMSE和相关性系数(C_r),似乎是衡量预测性能的标准方法。
竞赛简介
第三届世界科学智力竞赛的新能源赛道聚焦于预测5个风电场和5个光伏电站的功率输出。这对构建现代电力系统、提升能源安全和促进可持续性有重要意义。竞赛从2025年2月持续到7月,分为初赛、半决赛和决赛,鼓励全球人才创新。
数据概述
竞赛提供气象数据(NWP_1、NWP_2、NWP_3),包括8个变量如风速(u100、v100)、温度(t2m)、辐射(ghi、poai)等,以NetCDF格式存储,每小时一次。功率数据为10个电站的实际输出,每15分钟一次,可能含缺失值需处理。
baseline解读
baseline是一个Python脚本,使用LightGBM进行回归预测,涉及:
- 数据提取:从NetCDF文件计算空间平均值。
- 数据预处理:整合气象和功率数据,按小时采样。
- 模型训练:5折交叉验证,参数如学习率0.1、特征比例0.9。
- 输出:生成10个CSV文件,匹配15分钟粒度。
LightGBM因其高效性和处理大规模数据的优势被选用,支持自动特征选择和缺失值处理。
评估与优化
评估指标为RMSE(均方根误差)和(C_r)(相关性系数),baseline通过(1/(1+\text{RMSE}))转换分数。优化方向包括特征工程(如风速幅值)、时间序列模型和模型融合。
详细报告
竞赛背景与目标
第三届世界科学智力竞赛由上海科学智力研究院和复旦大学主办,旨在通过科学和技术手段解决实际问题。新能源赛道特别聚焦于新能源发电功率预测,目标是预测10个新能源电站(5个风电场和5个光伏电站)的功率输出,基于气象数据和历史功率数据。竞赛从2025年2月持续到7月,分为注册、初赛、半决赛和决赛,团队可由1-3人组成,需通过上海智研院平台注册,强调公平性,禁止代码共享和使用外部数据。竞赛与南方电网调度控制中心合作,旨在提升预测准确性,构建灵活开放的新能源预测生态系统,对能源安全、经济效益和环境可持续性至关重要。
数据描述与处理
竞赛提供两种主要数据类型:
- 气象数据:包括三个来源(NWP_1、NWP_2、NWP_3),包含8个变量:u100、v100(100米高度风速分量)、t2m(2米温度)、tcc(总云量)、tp(总降水量)、sp(地表压力)、ghi(全球水平辐射)、poai(阵面辐射)。数据以NetCDF格式存储,每小时一次,覆盖24小时,适合处理多维科学数据。
- 功率数据:为10个电站的实际功率输出,每15分钟一次,数据已归一化,可能包含缺失值、异常值或负值,需参赛者处理。
baseline的处理步骤包括:
- 数据提取:从NetCDF文件中提取气象数据,计算每个特征的11x11网格空间平均值,使用
np.mean简化维度。 - 数据预处理:将气象数据(每小时)和功率数据(每15分钟)整合,功率数据按小时采样,只保留每小时第一个数据点(“00:00”),确保时间序列一致。
- 特征工程:baseline通过空间平均处理数据,但可进一步优化,如计算风速幅值( u 10 0 2 + v 10 0 2 \sqrt{u100^2 + v100^2} u1002+v1002)、辐射比值(如
ghi/poai),或加入时间特征(如小时、日期)。
baseline模型与实现
baseline是一个Python脚本,使用LightGBM进行回归预测,采用5折交叉验证。LightGBM参数设置如下:
| 参数名 | 值 |
|---|---|
| boosting_type | ‘gbdt’ |
| objective | ‘regression’ |
| metric | ‘rmse’ |
| num_leaves | 256 |
| learning_rate | 0.1 |
| feature_fraction | 0.9 |
| bagging_fraction | 0.8 |
| bagging_freq | 5 |
| verbose | 100 |
| num_threads | 8 |
LightGBM因其高效性被选用,训练速度快、内存占用低,适合处理大规模数据,支持自动特征选择和缺失值处理。模型训练后,预测结果重复四次以匹配15分钟粒度,生成10个CSV文件(output1.csv到output10.csv),对应10个电站。
评估指标与性能
竞赛评估指标包括:
- RMSE:均方根误差,公式为 1 n ∑ i = 1 n ( P M , i − P P , i ) 2 \sqrt{\frac{1}{n} \sum_{i=1}^n (P_{M,i} - P_{P,i})^2} n1∑i=1n(PM,i−PP,i)2,衡量预测值与实际值的差异。
- (C_r):相关性系数,公式为 ( 1 − 1 n ∑ i = 1 n ( P M , i − P P , i ) 2 max ( P M , i , 0.2 ) ) × 100 % \left(1 - \sqrt{\frac{1}{n} \sum_{i=1}^n \frac{(P_{M,i} - P_{P,i})^2}{\max(P_{M,i}, 0.2)}}\right) \times 100\% (1−

最低0.47元/天 解锁文章
2105






