
比赛
文章平均质量分 95
Watch_dou
一名算法工程师,欢迎交流,由于比较忙,来不及回复评论,有事可以私戳我
展开
-
M5 Forecasting - Accuracy:Memory Optimization
进入M5,首先要解决的就是内存问题。我在此过程中感受深刻,也学到了很多,下面说一下我的心路历程。我先列出来几个数字。整个过程(数据处理(不包括EDA)、特征构造、训练、预测)执行时间14hour+。设备30G内存,60G磁盘(保证缓存数据存储),8核CPU,系统CentOS Linux release 7.7.1908 (Core)。总结起来大概就是:(6列id + 1914天销量)*30490个商品,其他的价格和节假日不考虑。我做了什么?最开始我对内存消耗没有概念,觉得我的设备不错,不会存着原创 2020-08-30 02:45:59 · 873 阅读 · 1 评论 -
M5 Forecasting - Accuracy:Multi-time series prediction with prophet
文章目录总览细节:数据说明1. 创建数据1.1 导入和重塑销售数据1.2 导入日历数据1.3 导入价格数据2. Building DataFrame3. 聚合LEVELSCOARSER4. Prophet聚合数据预测关于Prophet预测的数据形式和参数含义4.1 预测模型定义4.2 预测一部分按照ID聚合之后的时间序列看看情况4.3 所有聚合时间序列预测5. 重新规划要预测的最细粒度的时间序列数6. 小部分序列细粒度扩展计算结果6.1 结果计算函数6.2 预测一部分时间序列看看结果说明预测的思路6.3 可原创 2020-08-25 01:36:24 · 9526 阅读 · 1 评论 -
M-Competition历史你值得一读
Makridakis竞赛(又称M竞赛或M-Competitions)是由预测研究员Spyros Makridakis领导的团队组织的一系列公开竞赛,旨在评估和比较不同预测方法的准确性。更多请点击Makridakis Competitions1. 它的存在有点感动第一届M始于1982,比赛至今已有5届了,时间久远令感神圣,持续研究与发现的精神令人敬畏,可以算是神圣的M。由于M的存在,开创了很多新的算法,像M3的Theta method ,再如M4的Slawek Smyl’s Hybrid Expone原创 2020-08-06 11:22:18 · 1736 阅读 · 0 评论 -
时间序列预测中特征构建
传统统计学习方法: naive approach, moving average, Holt linear, exponential smoothing, ARIMA, and Prophet现代机器学习方法: 树模型等深度学习方法: LSTM、Seq2seq、Transform-XL等树模型需要人为构建特征,同时预测值不可超越区间内取值的上限。深度学习网络,可以发现输入数据之间的交互关系,同时可以发现趋势。根据数据可以尝试不同的方法,选择较优的方法。下面是树模型的构造特征的方法。1. 时间戳特原创 2020-07-30 21:35:49 · 6412 阅读 · 4 评论 -
KDD Cup 2020 - Debiasing:user-item feature
Written by wanping7from datetime import datetime# data processimport numpy as np, pandas as pdfrom datetime import datetime, timedelta# visualizeimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inline%config ZMQInteractiveShell.a原创 2020-07-14 12:38:22 · 525 阅读 · 0 评论 -
KDD Cup 2020 - Debiasing:user feature
Written by wanping7from datetime import datetime# data processimport numpy as np, pandas as pdfrom datetime import datetime, timedelta# visualizeimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inlineimport plotly.express as pxi原创 2020-07-14 12:24:20 · 450 阅读 · 0 评论 -
KDD Cup 2020 - Debiasing:item feature
Written by wanping7from datetime import datetime# data processimport numpy as np, pandas as pdfrom datetime import datetime, timedelta# visualizeimport seaborn as snsimport matplotlib.pyplot as pltget_ipython().run_line_magic('matplotlib', 'inli原创 2020-07-14 12:12:15 · 589 阅读 · 0 评论 -
M5 Forecasting - Accuracy:TimeSeries_Seq2seq
来源https://github.com/JEddy92/TimeSeries_Seq2Seq/blob/master/notebooks/TS_Seq2Seq_Conv_Full_Exog.ipynb假设145063个样本,时间序列2015-2016一共550天。Page2015-07-012015-07-022015-07-032015-07-042015-07-052015-07-062015-07-072015-07-082015-07-09…2016原创 2020-06-29 15:24:50 · 979 阅读 · 0 评论 -
M5 Forecasting - Accuracy:EDA
sales_train_validation.csv参考:Python版本EDA+传统时间序列方法:https://www.kaggle.com/tarunpaparaju/m5-competition-eda-modelsmodel:naive approach, moving average, Holt linear, exponential smoothing, ARIMA, and ProphetR版本EDA:https://www.kaggle.com/headsortails/b原创 2020-06-29 15:17:34 · 1117 阅读 · 1 评论 -
M5 Forecasting - Accuracy:Description
IntroductionWelcome to an extensive Exploratory Data Analysis for the 5th Makridakis forecasting competitions (M5)! This notebook will grow over the coming days and weeks into a deep dive of all the relevant aspects of this challenge. Here’s all you need原创 2020-06-29 15:17:05 · 1018 阅读 · 0 评论 -
permutation importance
哪些特征对预测的影响最大? 这或许是对一个模型提出的最基本问题之一。这个概念就是所谓得到特征重要性。有多种方法来衡量特征重要性。这篇文章Machine Learning Explainability Home Page采用了permutation importance(在此简称PI)方法。PI思路常规思路,我们或许很容易想到,在训练模型的时候很容易得到特征得到重要性,比如树模型直接可以输出特征重要性,但是这个特征对整体的预测效果有多大影响啊?我们可以这样做,首先让全部特征参与训练然后预测得出scor原创 2020-06-17 17:31:57 · 5580 阅读 · 0 评论 -
大数据集Hierarchical Indexing优化方案
1. 对比The bad way优化之前:30min跑不出来。prices = prices.set_index(["id", "date"])[["sell_price"]].unstack(level=-1).fillna(False)The Better Way: Pandas MultiIndex优化之后:MultiIndex方案两分钟不到。index = [list(prices.id), list(prices.date)]index = pd.MultiIndex.from_a原创 2020-05-12 08:38:19 · 461 阅读 · 3 评论