集成方法:决策树训练与性能优化
1. 树训练与分割点选择
树训练的第一步是选择分割点,这决定了数据如何被划分到不同的分支。以深度为 1 的树(也称为树桩)为例,根节点的单一决策是将属性值与 -0.075 进行比较,这个 -0.075 就是分割点,它将数据分为两组。
- 当属性值小于分割点时,预测值约为 -0.302。
- 从决策点发出的两个分支显示,101 个输入示例中有 43 个进入左分支,其余 58 个进入右分支。
分割点的选择会影响预测结果,预测值是属性的阶跃函数,阶跃发生在分割点处。
2. 分割点选择算法
要确定一个简单的树,只需要三个量:分割点值以及如果数据点落入两个可能的组中,分配给预测的值。树的训练过程就是为了确定这些量,其目标是最小化预测的平方误差。
- 假设分割点已知,那么两组的预测值就由每组的平均值确定,因为平均值能使均方误差最小。
- 确定分割点的过程是尝试所有可能的分割点,将数据分为两组,用每组的平均值近似每组,然后计算得到的平方误差和。
- 训练决策树需要详尽地搜索所有可能的分割点,以找到使平方误差和最小的分割点。
对于多变量问题,算法会检查所有属性的所有可能分割点,找出每个属性的最佳分割点,然后确定整体最小误差的属性。
3. 递归分割以增加树的深度
随着树深度从 1 增加到 2,预测曲线从单步变为三步。第二组分割点的确定方式与第一组相同,每个节点处理由其上方分割确定的子集,分割点的选择是为了最小化下方两个节点的平方误差和。
- 更多的树深度会使预测曲线的台阶更细,对训练数据的拟合度更高。
- 但随
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



