李宏毅机器学习（八）

最新推荐文章于 2024-10-02 13:00:41 发布

原创最新推荐文章于 2024-10-02 13:00:41 发布 · 459 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#回归树 #剪枝

机器学习专栏收录该内容

13 篇文章

订阅专栏

本次学习基于《统计学习方法》，介绍了Gini指数，其越小集合纯度越高；回归树是决策树一种，用平方误差最小化准则生成二叉树；还阐述了CART决策树剪枝，包括定义和方法，剪枝分预剪枝和后剪枝，可让模型更准确。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本次学习主要基于《统计学习方法》一书。

一、Gini指数

1.定义

Gini指数（基尼指数）：表示在样本集合中一个随机选中的样本被分错的概率。
Gini指数越小表示集合中被选中的样本被分错的概率越小，也就是说集合的纯度越高，反之，集合越不纯。即基尼指数（基尼不纯度）= 样本被选中的概率 * 样本被分错的概率，表达式如下所示：
$\sum_{k=1}^K p_k(1-p_k)=1-\sum_{k=1}^Kp_k^2$

$p_k$ 表示选中的样本属于k类别的概率，则这个样本被分错的概率是( $1-p_k$ )，样本集合中有K个类别，一个随机选中的样本可以属于这k个类别中的任意一个。

2.例子

对于二类分类问题，若样本点属于第1个类的概率是p，则概率分布的基尼指数为：
$G i n i (p) = 2 p (1 - p)$
对于给定的样本集合D，基尼指数为：
$Gini(D)=1-\sum^K_{k=1}(\frac{C_k}{D})^2 $

二、回归树

1.定义

回归树和分类树都是决策树的一种，但是回归树用平方误差最小化准则进行特征选择，来生成二叉树，而分类树则是用基尼指数(Gini index)最小化准则。

2.回归树生成

CART分析步骤：
1、从根节点t=1开始，从所有可能候选S集合中搜索使不纯性降低最大的划分S*，然后，使用划分S*将节点1（t=1）划分成两个节点t=2和t=3；
2、在t=2和t=3上分别重复划分搜索过程。在CART算法中, 基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。基尼不纯度为这个样本被选中的概率乘以它被分错的概率。当一个节点中所有样本都是一个类时，基尼不纯度为零。

三、剪枝

1.定义

对于CART(就是分类树和回归树)剪枝，就是从“完全生长”的决策树的底端剪去一些子树，使决策树变小(模型变简单)，从而能够对未知数据有更准确的预测。

2. 方法

剪枝的步骤有两步：

首先从生成算法产生的决策树 $T_0$ 底端开始不断剪枝，直到 $T_0$ 的根节点，形成一个子树序列 $T_0,T_1,...,T_n$ ;
然后通过交叉验证法在独立的验证数据集上对子树序列进行测试，从中选择最优子树。

剪枝可以分为两种：
预剪枝(Pre-Pruning)和后剪枝(Post-Pruning)：

PrePrune：预剪枝，及早的停止树增长。
PostPrune：后剪枝，在已生成过拟合决策树上进行剪枝，可以得到简化版的剪枝决策树。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。