机器学习之树模型

博客围绕XGBoost模型展开,先介绍决策树模型优化方法及不同类型决策树的损失函数。重点推导XGBoost第t步损失函数,将其分解为T个叶子节点上子目标函数之和,用贪心法搜索树结构。总结得出第t步损失函数为二次函数,有最优解,还定义新信息增益搜索决策树。

决策树模型,树的结构固定,自顶向下分叉。优化方法就是搜索某个特征的取值范围作为分支的界限。所以,各种决策树模型的体现在度量信息增益的方式,Formally讲,就是损失函数。回归树用MSE,分类树用交叉熵。

xgboost模型

推导第t步的损失函数

在这里插入图片描述
在这里插入图片描述
得到新的目标函数并进一步,将它分解为T个叶子节点上子目标函数之和(方便下边搜索树结构使用)。
在这里插入图片描述
解这个二次函数的最小值问题得到形式化的解法。
在这里插入图片描述
贪心法搜索树的结构。选择能让信息增益最大的feature和分界点。

总结

xgboost由加法模型分析得出一个第t步决策树的损失函数。首先加法模型总体的损失函数是MSE. 第t步的损失函数将前t-1步决策树预测的和看作变量,将第t步的决策树预测看作是泰勒展开式中的增量,然后将总体损失函数利用泰勒展开式展开到3项,将不含第t步预测的项当作常数略去。可以发现这个第t步的损失函数是二次函数,有形式化的解法,可以直接得到损失函数的最优解。进一步将这个第t步的损失函数规整为T个叶子节点损失函数之和。定义新的信息增益来搜索第t步的决策树。

参考文献

https://homes.cs.washington.edu/~tqchen/pdf/BoostedTree.pdf 陈天奇的讲义

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值