Datawhale AI春训营:第三届世界科学智力竞赛新能源赛道baseline深度解读

LightGBM模型与数据处理策略

关键要点

  • 竞赛目标是预测10个新能源电站的功率输出,基于气象和历史数据,研究表明这对能源管理至关重要。
  • 数据包括气象变量(如风速、辐射)和功率输出,证据显示这些数据需处理以提高预测准确性。
  • baseline使用LightGBM模型,数据处理涉及空间平均和时间序列整合,研究表明其效率高但有优化空间。
  • 评估指标为RMSE和相关性系数(C_r),似乎是衡量预测性能的标准方法。

竞赛简介

第三届世界科学智力竞赛的新能源赛道聚焦于预测5个风电场和5个光伏电站的功率输出。这对构建现代电力系统、提升能源安全和促进可持续性有重要意义。竞赛从2025年2月持续到7月,分为初赛、半决赛和决赛,鼓励全球人才创新。

数据概述

竞赛提供气象数据(NWP_1、NWP_2、NWP_3),包括8个变量如风速(u100、v100)、温度(t2m)、辐射(ghi、poai)等,以NetCDF格式存储,每小时一次。功率数据为10个电站的实际输出,每15分钟一次,可能含缺失值需处理。

baseline解读

baseline是一个Python脚本,使用LightGBM进行回归预测,涉及:

  • 数据提取:从NetCDF文件计算空间平均值。
  • 数据预处理:整合气象和功率数据,按小时采样。
  • 模型训练:5折交叉验证,参数如学习率0.1、特征比例0.9。
  • 输出:生成10个CSV文件,匹配15分钟粒度。

LightGBM因其高效性和处理大规模数据的优势被选用,支持自动特征选择和缺失值处理。

评估与优化

评估指标为RMSE(均方根误差)和(C_r)(相关性系数),baseline通过(1/(1+\text{RMSE}))转换分数。优化方向包括特征工程(如风速幅值)、时间序列模型和模型融合。


详细报告

竞赛背景与目标

第三届世界科学智力竞赛由上海科学智力研究院和复旦大学主办,旨在通过科学和技术手段解决实际问题。新能源赛道特别聚焦于新能源发电功率预测,目标是预测10个新能源电站(5个风电场和5个光伏电站)的功率输出,基于气象数据和历史功率数据。竞赛从2025年2月持续到7月,分为注册、初赛、半决赛和决赛,团队可由1-3人组成,需通过上海智研院平台注册,强调公平性,禁止代码共享和使用外部数据。竞赛与南方电网调度控制中心合作,旨在提升预测准确性,构建灵活开放的新能源预测生态系统,对能源安全、经济效益和环境可持续性至关重要。

数据描述与处理

竞赛提供两种主要数据类型:

  • 气象数据:包括三个来源(NWP_1、NWP_2、NWP_3),包含8个变量:u100、v100(100米高度风速分量)、t2m(2米温度)、tcc(总云量)、tp(总降水量)、sp(地表压力)、ghi(全球水平辐射)、poai(阵面辐射)。数据以NetCDF格式存储,每小时一次,覆盖24小时,适合处理多维科学数据。
  • 功率数据:为10个电站的实际功率输出,每15分钟一次,数据已归一化,可能包含缺失值、异常值或负值,需参赛者处理。

baseline的处理步骤包括:

  • 数据提取:从NetCDF文件中提取气象数据,计算每个特征的11x11网格空间平均值,使用np.mean简化维度。
  • 数据预处理:将气象数据(每小时)和功率数据(每15分钟)整合,功率数据按小时采样,只保留每小时第一个数据点(“00:00”),确保时间序列一致。
  • 特征工程:baseline通过空间平均处理数据,但可进一步优化,如计算风速幅值( u 10 0 2 + v 10 0 2 \sqrt{u100^2 + v100^2} u1002+v1002 )、辐射比值(如ghi/poai),或加入时间特征(如小时、日期)。
baseline模型与实现

baseline是一个Python脚本,使用LightGBM进行回归预测,采用5折交叉验证。LightGBM参数设置如下:

参数名
boosting_type ‘gbdt’
objective ‘regression’
metric ‘rmse’
num_leaves 256
learning_rate 0.1
feature_fraction 0.9
bagging_fraction 0.8
bagging_freq 5
verbose 100
num_threads 8

LightGBM因其高效性被选用,训练速度快、内存占用低,适合处理大规模数据,支持自动特征选择和缺失值处理。模型训练后,预测结果重复四次以匹配15分钟粒度,生成10个CSV文件(output1.csv到output10.csv),对应10个电站。

评估指标与性能

竞赛评估指标包括:

  • RMSE:均方根误差,公式为 1 n ∑ i = 1 n ( P M , i − P P , i ) 2 \sqrt{\frac{1}{n} \sum_{i=1}^n (P_{M,i} - P_{P,i})^2} n1i=1n(PM,iPP,i)2 ,衡量预测值与实际值的差异。
  • (C_r):相关性系数,公式为 ( 1 − 1 n ∑ i = 1 n ( P M , i − P P , i ) 2 max ⁡ ( P M , i , 0.2 ) ) × 100 % \left(1 - \sqrt{\frac{1}{n} \sum_{i=1}^n \frac{(P_{M,i} - P_{P,i})^2}{\max(P_{M,i}, 0.2)}}\right) \times 100\% (1
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值