基尼指数CART算法(分类树)——分类树,分类的标签是离散的,如 好/不好
基尼指数(Gini Index)是CART(Classification And Regression Tree)算法中用于分类任务
的一种评估指标,用于衡量数据集的不纯度或者不确定性
。
在构建决策树时,CART算法会根据基尼指数来选择最优的特征
进行数据集的分割。
基尼指数定义:
基尼指数
其中, 表示类别 ( k ) 在数据集 ( D ) 中的比例。基尼指数的取值范围在
CART算法与基尼指数的使用:
在CART分类树中,算法的目标是找到一个特征和阈值,使得依据这个特征和阈值划分数据后的两个子集的基尼指数之和最小
。具体步骤如下:
- 计算基尼指数: 对于每个特征,算法会尝试所有可能的切分点,并计算切分后左右子集的基尼指数。
- 选择最佳切分: 选择使得划分后基尼指数加权和
最小
的那个特征和切分点作为最优划分。
加权和是根据子集大小(样本数量)来计算的,即,其中
和
- 递归构建树: 以选定的特征和阈值进行数据集的分割,然后对每个子集
重复上述过程
,直至满足停止条件(如节点中的样本都属于同一类别、达到预设的最大深度、节点中的样本数低于某个阈值等)。 - 剪枝: 构建完成的决策树往往需要
通过剪枝来防止过拟合
,这通常包括预剪枝(在构建过程中提前停止树的增长)和后剪枝(先构建完整的树,再删除某些子树以减少复杂度)。