实用随机森林 - 针对时间序列的 kaggle 技巧

最新推荐文章于 2025-06-14 21:27:55 发布

原创

最新推荐文章于 2025-06-14 21:27:55 发布 · 3.6k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #时间序列 #随机森林 #Kaggle

本文探讨了在时间序列分析中使用随机森林时的优化方法，包括OOB与validation set的区别、时间序列模型建立的技巧以及如何处理时间相关的特征以减少过拟合。通过实例展示了特征重要性分析和去除无关特征对模型性能的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这节课我们主要讲讲：

1。OOB 和 validation 的数值计算上区别

2。时间序列模型建立时，如何处理 validation 和 test 与模型精度控制的小技巧

3。去掉时间相关的元素 —— 消除训练集里面过拟合的特征

---

1。OOB 和 validation set 数值计算上的差别

这两个数值有 2 点不一样：

a。使用的数据不一样

为了更好的得到模型验证的结果，所以我们往往使用一种比较特别的 train/validation split 方式，我们不是直接随机分类得到，而是根据时间顺序，取时间更为久远的作为 train set，取时间较为近的作为 validation set。因此，OOB计算的数据其实来自于 train set，是整个train set 里面随机收取的数据，其结果更适用于解释模型是否过拟合。而 validation set 则完全是时间纬度上更新的数据，因此其结果更适合用于说明模型的泛化情况。

b。数据量不一样

在 OOB 中，你的数据是 out of bag 数据，因此每个数据被用于计算的情况，是它没有被 train 选中的情况，这里的数据被选中的概率就低于 100%。而在 validation set 里面，每一次每个数据被会被计算，因此，计算概率是 100%。因此两者的数据计算均衡性有差别，通常我们认为，OOB 会比实际情况更低一点，因为他的 randomness 更低。

2。时间序列模型建立时，如何处理 validation 和 test 与模型精度控制的小技巧

在时间序列模型构建时，我们的系统误差往往来自于通过过去去预测未来的外推误差。那在 Kaggle 或者工程上实现时，我们可以考虑这个小技巧：<

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。