14、决策树：从度量指标到广告点击率预测-优快云博客

本文链接：https://blog.youkuaiyun.com/wind6/article/details/152424983

决策树：从度量指标到广告点击率预测

1. 分割度量指标

在选择特征和值的最佳组合作为分割点时，可以使用基尼不纯度（Gini Impurity）和信息增益（Information Gain）这两个标准来衡量分割的质量。

1.1 基尼不纯度

基尼不纯度衡量数据点类别分布的不纯率或类别混合率。对于一个有 $K$ 个类别的数据集，假设第 $i$ 类数据占整个数据集的比例为 $p_i$，则该数据集的基尼不纯度计算公式如下：
$$Gini = 1 - \sum_{i=1}^{K} p_{i}^{2}$$
基尼不纯度越低，表示数据集越纯。例如，当数据集只包含一个类别时，该类别的比例为 1，其他类别的比例为 0，此时基尼不纯度为 0。另一个例子是，一个记录大量抛硬币结果的数据集，正面和反面各占样本的一半，此时基尼不纯度为 0.5。

在二进制情况下，可以使用以下代码可视化不同正类比例下的基尼不纯度：

import matplotlib.pyplot as plt
import numpy as np

# 正类比例从 0 到 1 变化
pos_fraction = np.linspace(0.00, 1.00, 1000)

# 计算基尼不纯度
gini = 1 - pos_fraction**2 - (1 - pos_fraction)**2

# 绘制基尼不纯度与正类比例的关系图
plt.plot(pos_fraction, gini)
plt.ylim(0, 1)
plt.xlabel('Positive fraction')
plt.ylabel('Gini Imp