《南瓜书》 chapter4

本文深入探讨了信息论中的核心概念——熵,作为衡量样本集合纯度的指标,并详细解析了信息增益及其在决策树算法中的应用。通过公式展示了如何计算信息熵和信息增益,以及C4.5算法如何利用增益率克服信息增益的不足。

4.1

熵是度量样本集合纯度最常用的一种指标,代表一个系统中蕴含多少信息量,信息量越大表明一个系统不确定性就越大,就存在越多的可能性。

假定当前样本集合 DDD 中第 kkk 类样本所占的比例为 pk(k=1,2,...,∣y∣)p_k(k =1,2,...,|y|)pk(k=1,2,...,y) ,则 DDD 的信息熵为:

(4.1)Ent(D)=−∑k=1∣y∣pklog2pk Ent(D) =-\sum_{k=1}^{|y|}p_klog_{2}{p_k} \tag {4.1} Ent(D)=k=1ypklog2pk(4.1)

其中,当样本 DDD∣y∣|y|y 类样本均匀分布时,这时信息熵最大,其值为
Ent(D)=−∑k=1∣y∣1∣y∣log21∣y∣=∑k=1∣y∣1∣y∣log2∣y∣=log2∣y∣ Ent(D) =-\sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{\frac{1}{|y|}} = \sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{|y|} = log_{2}{|y|} Ent(D)=k=1yy1log2y1=k=1yy1log2y=log2y
此时样本D的纯度越小;

相反,假设样本D中只有一类样本,此时信息熵最小,其值为
Ent(D)=−∑k=1∣y∣1∣y∣log21∣y∣=−1log21−0log20−...−0log20=0 Ent(D) =-\sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{\frac{1}{|y|}} = -1log_21-0log_20-...-0log_20 = 0 Ent(D)=k=1yy1log2y1=1log210log20...0log20=0
此时样本的纯度最大。

4.2

假定在样本D中有某个离散特征 aaaVVV 个可能的取值 (a1,a2,...,aV)(a^1,a^2,...,a^V)(a1,a2,...,aV),若使用特征 aaa 来对样本集 DDD 进行划分,则会产生 VVV 个分支结点,其中第 vvv 个分支结点包含了 DDD 中所有在特征 aaa 上取值为 ava^vav 的样本,样本记为 DvD^vDv,由于根据离散特征a的每个值划分的 VVV 个分支结点下的样本数量不一致,对于这 VVV 个分支结点赋予权重 ∣Dv∣∣D∣\frac{|D^v|}{|D|}DDv,即样本数越多的分支结点的影响越大,特征 aaa 对样本集 DDD 进行划分所获得的“信息增益”为
(4.2)Gain(D,a)=Ent(D)−∑v=1V∣Dv∣∣D∣Ent(Dv) Gain(D,a) = Ent(D) - \sum_{v=1}^{V}\frac{|D^v|}{|D|}Ent({D^v}) \tag {4.2} Gain(D,a)=Ent(D)v=1VDDvEnt(Dv)(4.2)
信息增益越大,表示使用特征a来对样本集进行划分所获得的纯度提升越大。

缺点:由于在计算信息增益中倾向于特征值越多的特征进行优先划分,这样假设某个特征值的离散值个数与样本集 DDD 个数相同(假设为样本编号),虽然用样本编号对样本进行划分,样本纯度提升最高,但是并不具有泛化能力。

4.3 - 4.4

基于信息增益的缺点,C4.5C4.5C4.5 算法不直接使用信息增益,而是使用一种叫增益率的方法来选择最优特征进行划分,对于样本集 DDD 中的离散特征 aaa ,增益率为
(4.3)Gainratio(D,a)=Gain(D,a)IV(a) Gain_ratio(D,a)=\frac{Gain(D,a)}{IV(a)} \tag {4.3} Gainratio(D,a)=IV(a)Gain(D,a)(4.3)
其中,
(4.4)IV(a)=−∑v=1V∣Dv∣∣D∣log2∣Dv∣∣D∣ IV(a)=-\sum_{v=1}^{V}\frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|} \tag {4.4} IV(a)=v=1VDDvlog2DDv(4.4)
IV(a) 是特征 a 的熵。

增益率对特征值较少的特征有一定偏好,因此 C4.5C4.5C4.5 ** 算法选择特征的方法是先从候选特征中选出信息增益高于平均水平的特征,再从这些特征中选择增益率最高的**。

4.5

假定当前样本集合 DDD 中第 kkk 类样本所占的比例为 pk(k=1,2,...,∣y∣)p_k(k =1,2,...,|y|)pk(k=1,2,...,y),则 DDD基尼值
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ Gini(p) &=\sum…

4.7 - 4.8

样本集 DDD 中的连续特征 aaa,假设特征 aaannn 个不同的取值,对其进行大小排序,记为 {a1,a2,...,an}\lbrace{a^1,a^2,...,a^n}\rbrace{a1,a2,...,an},根据特征 aaa 可得到 n−1n-1n1 个划分点 ttt,划分点 ttt 的集合为
(4.7)Ta={ai+ai+12∣1≤i≤n−1} T_a=\lbrace{\frac{a^i+a^{i+1}}{2}|1\leq{i}\leq{n-1}}\rbrace \tag {4.7} Ta={2ai+ai+11in1}(4.7)

对于取值集合 $ T_a$ 中的每个 ttt 值计算将特征 aaa 离散为一个特征值只有两个值,分别是 {a>t}\lbrace{a} >t\rbrace{a>t}{a≤t}\lbrace{a} \leq{t}\rbrace{at} 的特征,计算新特征的信息增益,找到信息增益最大的 ttt 值即为该特征的最优划分点。
KaTeX parse error: No such environment: eqnarray at position 8: \begin{̲e̲q̲n̲a̲r̲r̲a̲y̲}̲ Gain(D,a) &= \…

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值