决策树(二):回归树和模型树

本文探讨了决策树中的回归树与模型树。回归树通过连续特征值进行二叉划分,以最小化平方误差。模型树则在叶子节点用样本拟合直线,以更复杂的预测方式优化误差。生成过程中,选择最佳特征和分割点以降低误差。剪枝阶段,两种树的损失函数考虑了预测误差和树的复杂度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

下面介绍的回归树和另一篇文章介绍的分类树,都属于决策树范畴。分类树的模型是每个非叶子节点都是一个分类特征,按照该分类特征的不同取值,将数据集分为多少个子集;并且分类树模型我们要找的是测试数据集的最终分类结果,而这个结果是标称型数据。而在回归树的概念中,每个非叶子节点也是需要根据某个特征分出子树,但是这个特征的取值是连续的,就不可能像分类树那样依据多少个取值分为多少个子树,所以在回归树模型中,一般都是二叉树,每个非叶子节点的分类特征都取一个值,小于这个值的数据分到左子树,大于这个值的分到右子树,等于这个值的我感觉是两边都可。

换一种说法,二叉树内部取“是”和“否”的分法,一个节点的条件时x<=a(a是我们计算出来的合适的分隔数据点),其中小于等于a的我们取“是”,也就是放到左子树,大于a的,我们取“否”,放到右子树。

  1. 回归树的生成

我们知道,不管是在回归树的生成过程中,还是生成之后,所有的叶子节点都是一堆数据集,而我们的目标就是对叶子节点上的数据集进行误差最小化分析,不断划分,直到叶子节点的误差小于一定的阈值。所以在每个叶子节点上,我们用平方误差

,来表示回归树训练过程中的预测误差,其中f(xi)是期望最优值,我们取所有yi的平均值,即 。下来就是需要取,最优的分割特征及其分割值,我们采用启发式方法(我理解的启发式方法,通俗的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值