机器学习在新产品需求预测中的应用与探索
1. 零售数据特征与模型训练应对策略
在零售数据中,常常呈现出长尾特征,即少数商品占据了大部分的销售额,这导致销售额的波动幅度跨越了几个数量级。为了解决这种高方差问题,研究人员采用了对数和线性两种尺度来训练模型,并尝试了不同的损失函数。
以下是研究中比较的算法及其对应的损失函数:
| 模型 | 损失函数 |
| — | — |
| Random Forest (RF) | Mean Squared Error (MSE) |
| Gradient Boosted Regression Trees (GBRT) | MSE 和 Huber |
| Light Gradient Machine (LGBM) | MSE 和 Poisson |
| CatBoost (CB) | MSE 和 Poisson |
| XGBoost (XGB) | MSE 和 Poisson |
| Attribute Embedding + MLP | MSE 和 Poisson |
| Attribute Embedding + LSTM | MSE 和 Poisson |
树基模型和多层感知机(MLP)以非线性自回归积分滑动平均(ARIMA)的方式进行训练,利用时变特征的滞后值来捕捉时间依赖关系。
研究人员在五个不同的数据集上对这些模型进行了测试,这些数据集分别对应衬衫、休闲鞋、库尔塔(一种服装)、上衣和T恤等不同产品,每个数据集中的商品数量都达到了数万件。以每种款式的平均周销售额作为简单基准,通过加权平均绝对百分比误差(wMAPE)来比较模型的准确性。结果显
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



