xgboost:防止过拟合的方法收缩和特征列、采样

最新推荐文章于 2025-03-07 12:44:50 发布

原创

最新推荐文章于 2025-03-07 12:44:50 发布 · 1.3k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #人工智能 #深度学习

XGBoost采用了收缩技术和列子采样来防止过拟合。收缩是通过在每步提升后以η因子缩小新添加权重，类似于学习率，通常设置在0.1以下以提高泛化性能。列子采样则是在特征层面进行随机选择，优于传统的行子采样，同时加速计算并防止过拟合。这两种技术都在提升模型的稳定性和性能方面起到了关键作用。

xgboost除了第2.1节中提到的正则化目标之外，还使用了另外两种技术来进一步防止过拟合¹。

目录

- shrinkage[^1]
- Column Subsampling[^2]

shrinkage²

第一种技术是由弗里德曼提出的收缩。在树提升的每一步之后，收缩率以η因子的比例缩放新添加的权重。与随机优化中的学习率类似，收缩减少了每棵树的影响，并为未来的树留下了改进模型的空间。

在论文²中有描述：

The “shrinkage” parameter $0<v\leqslant1$ controls the learning rate of the procedure. Empirically (Friedman, 1999), it was found that small values $(\nu\leqslant0.1)$ lead to much better generalization error.

shrinkage参数一般设置在 $0<v\leqslant1$ 范围内，Empirically (Friedman, 1999)发现小的值 $(\nu\leqslant0.1)$ 使得有更好的泛化性能；
$F_m(\mathbf{x)=}F_{m-1}(\mathbf{x})+v\cdot\gamma_{lm}1(\mathbf{x}\in R_{lm}).$

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

KPer_Yang 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。