决策树（二）：回归树和模型树

会飞的犬良

于 2019-09-26 13:45:05 发布

阅读量4.4k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习回归树模型树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/things_use/article/details/101437921

本文探讨了决策树中的回归树与模型树。回归树通过连续特征值进行二叉划分，以最小化平方误差。模型树则在叶子节点用样本拟合直线，以更复杂的预测方式优化误差。生成过程中，选择最佳特征和分割点以降低误差。剪枝阶段，两种树的损失函数考虑了预测误差和树的复杂度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

下面介绍的回归树和另一篇文章介绍的分类树，都属于决策树范畴。分类树的模型是每个非叶子节点都是一个分类特征，按照该分类特征的不同取值，将数据集分为多少个子集；并且分类树模型我们要找的是测试数据集的最终分类结果，而这个结果是标称型数据。而在回归树的概念中，每个非叶子节点也是需要根据某个特征分出子树，但是这个特征的取值是连续的，就不可能像分类树那样依据多少个取值分为多少个子树，所以在回归树模型中，一般都是二叉树，每个非叶子节点的分类特征都取一个值，小于这个值的数据分到左子树，大于这个值的分到右子树，等于这个值的我感觉是两边都可。

换一种说法，二叉树内部取“是”和“否”的分法，一个节点的条件时x<=a（a是我们计算出来的合适的分隔数据点），其中小于等于a的我们取“是”，也就是放到左子树，大于a的，我们取“否”，放到右子树。

回归树的生成

我们知道，不管是在回归树的生成过程中，还是生成之后，所有的叶子节点都是一堆数据集，而我们的目标就是对叶子节点上的数据集进行误差最小化分析，不断划分，直到叶子节点的误差小于一定的阈值。所以在每个叶子节点上，我们用平方误差

，来表示回归树训练过程中的预测误差，其中f(xi)是期望最优值，我们取所有yi的平均值，即。下来就是需要取，最优的分割特征及其分割值，我们采用启发式方法（我理解的启发式方法，通俗的

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。