【Datawhale手把手带打一场时间序列赛事】任务一学习笔记

本文介绍了电动汽车充电站充电量预测的竞赛任务,包括数据集解读、时间序列分析流程、特征构建(如h3编码和时间特征),以及使用ARIMA、Prophet等模型进行预测的通用步骤。评估主要依赖RMSE指标,强调了模型性能的稳健性和可解释性。

一、赛题任务解读

电动汽车充电站充电量预测:赛事链接

1.1任务要求

初赛任务:根据赛题提供的电动汽车充电站多维度脱敏数据,构造合理特征及算法模型,预估站点未来一周每日的充电量。(以为单位)

1.2数据集介绍

初赛为参赛选手准备的数据字典,具体含义见下图:

其中,power.csv文件为训练集的标签。最终任务即在验证集的数据基础上得到验证集的power.csv文件。再上传至比赛官方得到评分。验证集的数据类别与训练集一致。

注:

(1)h3编码是一种用于分层地理编码的系统,可以将地球划分为不同的六边形网格。选手可以尝试使用 h3 编码来构造与地理位置相关的额外特征。

(2)、脱敏字段,不提供字段业务描述,供选手自由探索。

1.3评估指标

评估指标:RMSE 具体含义见下图:

式中y为第个数据的真实值,y星为第个数据的预测值,n为样本总数。

RMSE作为评估指标的优势:RMSE对预测误差的敏感性很高,它会惩罚大误差,因此能够清晰地显示模型预测与实际观测之间的差异;此外,RMSE的值以与目标变量相同的单位表示,因此易于理解,这有助于解释模型误差的实际影响;最后,MSE是在数学上稳健的评估指标,它涉及误差的平方,有利于数学分析和优化。

 二、时间序列赛事的通用流程及baseline讲解

2.1时间序列赛事的通用流程:

2.1.1数据收集和理解:
  • 获取竞赛数据集,了解数据的结构和特征。
  • 探索数据,包括查看时间序列的趋势、季节性和周期性,识别异常值和缺失数据。
2.1.2特征工程:
  • 对数据进行预处理,包括平滑处理、填补缺失值、处理异常值等。
  • 创建相关的特征,例如滞后特征、移动平均特征、时间特征等,以帮助模型更好地捕捉时间序列的模式。
2.1.3拆分数据:

       将数据集分为训练集和验证集,通常使用时间滑窗或交叉验证来确保模型的泛化性能。

2.1.4模型构造:
  • 根据问题的性质和数据的特点,选择适当的时间序列模型,如ARIMA、P
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值