kaggle-Corporación Favorita Grocery Sales Forecasting

本文介绍了作者在Kaggle Corporación Favorita Grocery Sales Forecasting比赛中的经验,包括如何将问题转化为时间序列预测,特征工程、模型选择(LGBM)、模型融合策略以及从比赛中学到的教训。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

该项比赛1月15日就已经结赛了,但由于之后进入期末,备考花费了大量的时间,没来得及整理相关内容。现在终于有时间好好回顾比赛,并对这次比赛的过程进行记录。


Corporación Favorita Grocery Sales Forecasting

本次比赛是预测商品销量,给出的训练数据为<单位销量,日期,商店ID,商品ID,推销活动标签>,其中单位销量是待预测值,基本上属于回归问题。同时给出的额外数据表有:

  • “商店信息表”—<商店ID,所在城市,所在州,类型,聚类簇>
  • “商品表”—<商品ID,所属类别,所属子类别,易腐烂标签>
  • “交易信息表”—<商店ID,日期,总交易笔数>
  • “石油价格”—<日期、石油价格>
  • “节假日信息”

值得注意的是,同一商品可能在不同的商店均有销售,而最后的测试数据为<日期,商店ID,商品ID,推销活动标签>,我们需要预测的是某商品在指定商店在某天的销量。训练数据给出了从2013年-2017年8月15日近一千余天的数据条目,每一天都包含各类商品在各个商店的数据条路,而很多商品只在某一些时间阶段出现过。测试数据需要预测的是2017年8月16日—31日销量情况。这就使得数据的组织十分重要。

和以前比赛一样,我还是在比赛过半左右的时间参与的比赛,这个时间参加,基本上forum已经有了解决该题的大方向,不至于跑偏。由于还要兼顾课业,从最开始慢慢实验测试是不太可能了,这也是kaggle比赛比较友好的地方,forum在比赛的各个时段都会有kaggler的集思广益,使得我们这类以学习为目的的人能用最小的成本学到最多的东西。


切入点

如上所述,如何组织数据至关重要。刚参赛时,我在做了简单的EDA后,发现数据并无特别的规律,原始训练数据如下(数据量巨大,只取了2017年的):

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值