基于深度学习的需求预测模型:原理、实践与展望
1. 实验设计与数据使用
在需求预测的实验中,针对三个不同的起始日期,我们选取了大约 760K 个不同商品的代表性子集作为测试需求误差的参考点。这里存在两层泛化情况:一是从训练数据历史时间序列预测未来需求;二是对商品组合中完全未见过的部分进行预测。
对于较小的训练集,为确保每个训练周期的批次数量相当(从而保证训练时间相近),我们会多次迭代相同的时间序列。训练过程中的其他超参数(如批次大小、云实例、学习参数等)保持不变,以模拟实际生产环境。
为确定模型在何种训练数据集规模下开始超越简单预测方法,我们引入了基于训练期内上周观测值的简单预测。不同训练数据集规模(以时间序列数量衡量)和不同起始日期的需求误差情况如图 1 所示。简单预测表现符合预期,其性能不受训练集大小影响。有趣的是,仅使用商品组合的一小部分(三个起始日期下分别为 0.2% - 6.6%)训练模型,就能超越简单预测。对于三个起始日期中的两个,缩放定律表现良好。
实验关键步骤总结
- 选取约 760K 个不同商品子集作为参考点。
- 小训练集多次迭代相同时间序列。
- 保持其他超参数不变。
- 引入简单预测进行对比。
2. 相关工作
我们的需求模型是定制的基于变压器(Transformer)的预测模型。2019 年推出该模型时,当前丰富的基于变压器的预测模型尚未出现。我们的灵感来源于深度学习架构在序列学习问题中的应用以及变压器架构在自然语言处理领域的成功。与其他在线零售商类似,我们在公开的先进模型出现之前就开始
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



