14、决策树:从度量指标到广告点击率预测

决策树:从度量指标到广告点击率预测

1. 分割度量指标

在选择特征和值的最佳组合作为分割点时,可以使用基尼不纯度(Gini Impurity)和信息增益(Information Gain)这两个标准来衡量分割的质量。

1.1 基尼不纯度

基尼不纯度衡量数据点类别分布的不纯率或类别混合率。对于一个有 $K$ 个类别的数据集,假设第 $i$ 类数据占整个数据集的比例为 $p_i$,则该数据集的基尼不纯度计算公式如下:
$$Gini = 1 - \sum_{i=1}^{K} p_{i}^{2}$$
基尼不纯度越低,表示数据集越纯。例如,当数据集只包含一个类别时,该类别的比例为 1,其他类别的比例为 0,此时基尼不纯度为 0。另一个例子是,一个记录大量抛硬币结果的数据集,正面和反面各占样本的一半,此时基尼不纯度为 0.5。

在二进制情况下,可以使用以下代码可视化不同正类比例下的基尼不纯度:

import matplotlib.pyplot as plt
import numpy as np

# 正类比例从 0 到 1 变化
pos_fraction = np.linspace(0.00, 1.00, 1000)

# 计算基尼不纯度
gini = 1 - pos_fraction**2 - (1 - pos_fraction)**2

# 绘制基尼不纯度与正类比例的关系图
plt.plot(pos_fraction, gini)
plt.ylim(0, 1)
plt.xlabel('Positive fraction')
plt.ylabel('Gini Imp
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值