Datawhale AI春训营：第三届世界科学智力竞赛新能源赛道baseline深度解读

原创

已于 2025-04-15 11:08:01 修改 · 1.2k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#python #机器学习 #ai #能源

于 2025-04-15 10:04:33 首次发布

LightGBM模型与数据处理策略

关键要点

竞赛目标是预测10个新能源电站的功率输出，基于气象和历史数据，研究表明这对能源管理至关重要。
数据包括气象变量（如风速、辐射）和功率输出，证据显示这些数据需处理以提高预测准确性。
baseline使用LightGBM模型，数据处理涉及空间平均和时间序列整合，研究表明其效率高但有优化空间。
评估指标为RMSE和相关性系数(C_r)，似乎是衡量预测性能的标准方法。

竞赛简介

第三届世界科学智力竞赛的新能源赛道聚焦于预测5个风电场和5个光伏电站的功率输出。这对构建现代电力系统、提升能源安全和促进可持续性有重要意义。竞赛从2025年2月持续到7月，分为初赛、半决赛和决赛，鼓励全球人才创新。

数据概述

竞赛提供气象数据（NWP_1、NWP_2、NWP_3），包括8个变量如风速（u100、v100）、温度（t2m）、辐射（ghi、poai）等，以NetCDF格式存储，每小时一次。功率数据为10个电站的实际输出，每15分钟一次，可能含缺失值需处理。

baseline解读

baseline是一个Python脚本，使用LightGBM进行回归预测，涉及：

数据提取：从NetCDF文件计算空间平均值。
数据预处理：整合气象和功率数据，按小时采样。
模型训练：5折交叉验证，参数如学习率0.1、特征比例0.9。
输出：生成10个CSV文件，匹配15分钟粒度。

LightGBM因其高效性和处理大规模数据的优势被选用，支持自动特征选择和缺失值处理。

评估与优化

评估指标为RMSE（均方根误差）和(C_r)（相关性系数），baseline通过(1/(1+\text{RMSE}))转换分数。优化方向包括特征工程（如风速幅值）、时间序列模型和模型融合。

详细报告

竞赛背景与目标

第三届世界科学智力竞赛由上海科学智力研究院和复旦大学主办，旨在通过科学和技术手段解决实际问题。新能源赛道特别聚焦于新能源发电功率预测，目标是预测10个新能源电站（5个风电场和5个光伏电站）的功率输出，基于气象数据和历史功率数据。竞赛从2025年2月持续到7月，分为注册、初赛、半决赛和决赛，团队可由1-3人组成，需通过上海智研院平台注册，强调公平性，禁止代码共享和使用外部数据。竞赛与南方电网调度控制中心合作，旨在提升预测准确性，构建灵活开放的新能源预测生态系统，对能源安全、经济效益和环境可持续性至关重要。

数据描述与处理

竞赛提供两种主要数据类型：

气象数据：包括三个来源（NWP_1、NWP_2、NWP_3），包含8个变量：u100、v100（100米高度风速分量）、t2m（2米温度）、tcc（总云量）、tp（总降水量）、sp（地表压力）、ghi（全球水平辐射）、poai（阵面辐射）。数据以NetCDF格式存储，每小时一次，覆盖24小时，适合处理多维科学数据。
功率数据：为10个电站的实际功率输出，每15分钟一次，数据已归一化，可能包含缺失值、异常值或负值，需参赛者处理。

baseline的处理步骤包括：

数据提取：从NetCDF文件中提取气象数据，计算每个特征的11x11网格空间平均值，使用np.mean简化维度。
数据预处理：将气象数据（每小时）和功率数据（每15分钟）整合，功率数据按小时采样，只保留每小时第一个数据点（“00:00”），确保时间序列一致。
特征工程：baseline通过空间平均处理数据，但可进一步优化，如计算风速幅值（ $\sqrt{u100^2 + v100^2}$ ）、辐射比值（如ghi/poai），或加入时间特征（如小时、日期）。

baseline模型与实现

baseline是一个Python脚本，使用LightGBM进行回归预测，采用5折交叉验证。LightGBM参数设置如下：

参数名	值
boosting_type	‘gbdt’
objective	‘regression’
metric	‘rmse’
num_leaves	256
learning_rate	0.1
feature_fraction	0.9
bagging_fraction	0.8
bagging_freq	5
verbose	100
num_threads	8

LightGBM因其高效性被选用，训练速度快、内存占用低，适合处理大规模数据，支持自动特征选择和缺失值处理。模型训练后，预测结果重复四次以匹配15分钟粒度，生成10个CSV文件（output1.csv到output10.csv），对应10个电站。

评估指标与性能

竞赛评估指标包括：

RMSE：均方根误差，公式为 $\sqrt{\frac{1}{n} \sum_{i=1}^n (P_{M,i} - P_{P,i})^2}$ ，衡量预测值与实际值的差异。
(C_r)：相关性系数，公式为 $\left(1 - \sqrt{\frac{1}{n} \sum_{i=1}^n \frac{(P_{M,i} - P_{P,i})^2}{\max(P_{M,i}, 0.2)}}\right) \times 100\%$