决策树:从度量指标到广告点击率预测
1. 分割度量指标
在选择特征和值的最佳组合作为分割点时,可以使用基尼不纯度(Gini Impurity)和信息增益(Information Gain)这两个标准来衡量分割的质量。
1.1 基尼不纯度
基尼不纯度衡量数据点类别分布的不纯率或类别混合率。对于一个有 $K$ 个类别的数据集,假设第 $i$ 类数据占整个数据集的比例为 $p_i$,则该数据集的基尼不纯度计算公式如下:
$$Gini = 1 - \sum_{i=1}^{K} p_{i}^{2}$$
基尼不纯度越低,表示数据集越纯。例如,当数据集只包含一个类别时,该类别的比例为 1,其他类别的比例为 0,此时基尼不纯度为 0。另一个例子是,一个记录大量抛硬币结果的数据集,正面和反面各占样本的一半,此时基尼不纯度为 0.5。
在二进制情况下,可以使用以下代码可视化不同正类比例下的基尼不纯度:
import matplotlib.pyplot as plt
import numpy as np
# 正类比例从 0 到 1 变化
pos_fraction = np.linspace(0.00, 1.00, 1000)
# 计算基尼不纯度
gini = 1 - pos_fraction**2 - (1 - pos_fraction)**2
# 绘制基尼不纯度与正类比例的关系图
plt.plot(pos_fraction, gini)
plt.ylim(0, 1)
plt.xlabel('Positive fraction')
plt.ylabel('Gini Imp
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



