第六课：多算法组合与模型最优化

原创已于 2022-05-24 17:59:53 修改 · 1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #机器学习 #深度学习

于 2018-11-20 23:08:22 首次发布

Course-七月-机器学习专栏收录该内容

7 篇文章

订阅专栏

本文探讨了模型选择的关键因素，包括样本数量、特征维度等，并深入解析了交叉验证、学习曲线在过拟合判断中的作用。此外，还详细介绍了模型融合技术，如bagging、stacking和boosting，及其在实际应用中的表现，特别强调了xGBDT的原理与优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、model selection

1、model selection中，对data考虑的几个要点：
1）sample数量；
2）feature dimentionality；
3）sample的覆盖度；
4）model用于哪个领域：NLP or CV；

二、交叉验证

1、交叉验证集做参数/模型选择；
2、测试集只做模型效果评估；

三、learning curve在工业界应用非常少，一般通过计算bias(training) - variance(validation)来判断是否overfitting；

learning curve
overfitting and underfitting处理方式

四、Bad Case

在这里插入图片描述

五、模型融合（model ensemble）

bagging
如：随机森林
stacking

将data分为train data和test data，将train data分为train_1 data和train_2 data。
利用train_1 data训练第一层的classifier1；
将train_2 data喂给classifier1，并将output作为train_2 data的new feature，用于训练第二层的classifier2。
在进行prediction时，将sample先输入classifier1，得到new feature，然后再将new feature作为classifier2的input，预测sample的label or value。
注意，stacking model容易overfitting，可以用较复杂模型形成new feature，用较简单模型进行prediction，这样，可以加快预测速度，这种模式可以应用于“广告点击”中？？？
详细解读Stacking模型：数据挖掘竞赛利器-Stacking和Blending方式
Boost：以串行方式，集合弱分类器，不断优化model的bias；
1）AdaBoost:对错分类样本重新分配权重，然后利用弱分类器优化这些sample的分类结果；
2）GBDT：利用弱分类器对“残差”进行不断优化；这里的“残差”指的是：y-y^hat（loss function的一阶导）；
参考博文：
梯度提升树(GBDT)原理小结
 机器学习算法GBDT的面试要点总结-上篇

3）xGBDT：与GBDT相比，xGBDT同时用到了“一阶导”和“二阶导”；xGBDT中tree为regression tree?
3.1）xGBDT思路说明：
首先、xGBDT也是boost方法的一种，在每一轮迭代中，获得一棵“tree”，最后将获得的所有tree相加，作为prediction value；
其次、xGBDT与GBDT不同之处在于：1）他使用“泰勒展开”，将原来的loss function转变为：l^’f+l^’'f²的形式，使得loss function的最小值可以通过求“二次函数”的顶点坐标: f=-l^’/2l^’'求得；2）xGBDT中定义了一个regularization，其包含了对“tree-depth”以及“tree-leaf-weight”的限制；（xGBDT中的tree是regression tree）。
第三、在得到一个objective function = loss function + regularization后，在构建每一棵tree时，是否要将tree某一node进行split，可以根据split前后，objective function的差值来进行决定。如果split后的objective function > split 前的objective function，则，不split。
以上即为xGBDT的key points。
3.2）以下为xGBDT推导过程：

参考博文：
机器学习（四）— 从gbdt到xgboost
GBDT和XGboost介绍
Bagging 和 Boosting的区别

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Sarah ฅʕ•̫͡•ʔฅ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。