【天池竞赛系列】菜鸟-需求预测与分仓规划初赛冠军解决方案

本文分享了作者参加的一次库存预测竞赛的经历,包括预处理、特征提取、模型融合及规则制定等关键步骤。通过聚类分析对不同趋势的商品进行单独建模,并采用多种模型融合策略以提高预测准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

初赛第一名,决赛第6名

没能去答辩,就瞎扯一下

初赛代码:https://github.com/wepe/CaiNiao-DemandForecast-StoragePlaning

比赛数据:链接: https://pan.baidu.com/s/1i55YPpF 密码: jxcp


预处理:删除双11,双12的数据,然后前面的数据往后移动一天填补,将不同趋势的商品聚类,对规律相同的簇单独建模分析

特征:因为数据量少,所以采用滑动窗口提取特征
前2周的数据提取特征,后两周求和作为label,滑动10个窗口
特征是求的最近k天商品的一些统计量,排名,占比
做一些多项式交叉特征
商品的补多补少成本多相似组合
trick:
商品成本相加作为样本权重
线下训练模型预测训练集,成本高的商品视作噪声从训练集中去除
单独分析发现这部分样本变化较大,考虑使用比较稳定的规则处理这部分样本


特征选择:xgb选择排名topk的特征,计算相似度,去除冗余特征


模型:使用LR + SVR +RF +GBRT+XGBOOST 40多个模型,按照商品成本做融合
补多成本大,则选择min(models)。补少成本大选择max(models)


规则:补多成本大,则选择min(最近2周)。补少成本大选择max(最近2周)


### 关于菜鸟网络需求预测规划的数据集下载 对于菜鸟网络的需求预测规划问题,相关的数据集可以通过参天池竞赛获取。具体来说,在天池竞赛的相关项目页面上会提供用于训练和测试模型所需的历史销售数据以及其他辅助信息[^2]。 #### 数据集来源 - **官方渠道**: 天池竞赛平台提供了完整的数据集供参赛者使用。这些数据通常包括历史销量记录、商品属性、布以及物流成本等相关字段。通过注册并加入比赛,可以合法获得该数据集的访问权限[^3]。 - **公开资源**: 虽然部细节可能有所保留,但一些团队会在赛后享他们的经验及处理过的数据样本链接。例如,“我们为R代言”团队在其总结文章中提到他们如何清洗和预处理大量原始输入以适应复杂的业务场景。 #### 获取方法 为了正式取得上述资料,建议按照以下方式操作: 1. 访问阿里云官网下的天池大赛板块 (https://tianchi.aliyun.com/) 并查找对应赛事名称:“菜鸟-需求预测规划”。一旦报名成功,则能够直接从指定位置下载压缩包形式的文件集合。 2. 如果仅需学习用途而非实际参加评比活动的话,也可以参考某些开源代码库中的说明文档里提及到的小规模示例版本作为替代方案之一。比如 WePe 开发者的 GitHub 存储库里包含了初赛阶段所采用的部脚本逻辑及其依赖项列表(https://github.com/wepe/CaiNiao-DemandForecast-StoragePlaning). 以下是简单的 Python 读取 CSV 文件的例子: ```python import pandas as pd # 加载本地存储的一个CSV文件 dataframe = pd.read_csv('path_to_your_file.csv') print(dataframe.head()) ``` 请注意替换 `'path_to_your_file.csv'` 成真实路径名前缀加上确切的目标档案命名字符串之后再执行以上命令片段即可查看初步结构概览。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值