基于分区的方法:CART、随机森林及相关技术详解
1. 基于分区方法概述
基于分区的方法是将特征空间划分为矩形子区域、子 - 子区域等。在预测新案例时,我们先确定其特征值所属的区域,再依据该区域内的目标值进行预测。这种方法与 k - NN 方法类似,本质上都是寻找新案例的邻居,但寻找邻居的方式有很大不同。该方法由统计学家发明,在统计学界很受欢迎,同时也广泛应用于机器学习领域。
下面通过字母识别数据进行一个简单预览:
lr <- LetterRecognition
# leave lett r as factor!
library(rpart)
library(rpart.plot)
rplr <- rpart(lett r ∼., data = lr, method = 'class')
prp(rplr)
上述代码会生成一个“流程图”。例如,若某个字母图像的 x2ybr 小于 2.5,而 y2bar 大于或等于 3.5,我们就预测该字母为 ‘L’。由于其具有树状结构,所以也被称为“树”。这种方法具有诸多优点,易于实现,向非专业人员解释也很容易。在计算方面,它能处理大量的预测变量,对哑变量的处理效果也很好。
2. CART 方法
分类与回归树(CART)由 Breiman、Friedman、Olshen 和 Stone 开发,它基于其他研究者的初步想法。其基本概念很简单,就是构建一个类似上述字母识别数据的“流程图”。
在回归问题中,叶节点会记录估计值
超级会员免费看
订阅专栏 解锁全文
914

被折叠的 条评论
为什么被折叠?



