4.1
熵是度量样本集合纯度最常用的一种指标,代表一个系统中蕴含多少信息量,信息量越大表明一个系统不确定性就越大,就存在越多的可能性。
假定当前样本集合 DDD 中第 kkk 类样本所占的比例为 pk(k=1,2,...,∣y∣)p_k(k =1,2,...,|y|)pk(k=1,2,...,∣y∣) ,则 DDD 的信息熵为:
(4.1)Ent(D)=−∑k=1∣y∣pklog2pk Ent(D) =-\sum_{k=1}^{|y|}p_klog_{2}{p_k} \tag {4.1} Ent(D)=−k=1∑∣y∣pklog2pk(4.1)
其中,当样本 DDD 中 ∣y∣|y|∣y∣ 类样本均匀分布时,这时信息熵最大,其值为
Ent(D)=−∑k=1∣y∣1∣y∣log21∣y∣=∑k=1∣y∣1∣y∣log2∣y∣=log2∣y∣
Ent(D) =-\sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{\frac{1}{|y|}} = \sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{|y|} = log_{2}{|y|}
Ent(D)=−k=1∑∣y∣∣y∣1log2∣y∣1=k=1∑∣y∣∣y∣1log2∣y∣=log2∣y∣
此时样本D的纯度越小;
相反,假设样本D中只有一类样本,此时信息熵最小,其值为
Ent(D)=−∑k=1∣y∣1∣y∣log21∣y∣=−1log21−0log20−...−0log20=0
Ent(D) =-\sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{\frac{1}{|y|}} = -1log_21-0log_20-...-0log_20 = 0
Ent(D)=−k=1∑∣y∣∣y∣1log2∣y∣1=−1log21−0log20−...−0log20=0
此时样本的纯度最大。
4.2
假定在样本D中有某个离散特征 aaa 有 VVV 个可能的取值 (a1,a2,...,aV)(a^1,a^2,...,a^V)(a1,a2,...,aV),若使用特征 aaa 来对样本集 DDD 进行划分,则会产生 VVV 个分支结点,其中第 vvv 个分支结点包含了 DDD 中所有在特征 aaa 上取值为 ava^vav 的样本,样本记为 DvD^vDv,由于根据离散特征a的每个值划分的 VVV 个分支结点下的样本数量不一致,对于这 VVV 个分支结点赋予权重 ∣Dv∣∣D∣\frac{|D^v|}{|D|}∣D∣∣Dv∣,即样本数越多的分支结点的影响越大,特征 aaa 对样本集 DDD 进行划分所获得的“信息增益”为
(4.2)Gain(D,a)=Ent(D)−∑v=1V∣Dv∣∣D∣Ent(Dv)
Gain(D,a) = Ent(D) - \sum_{v=1}^{V}\frac{|D^v|}{|D|}Ent({D^v}) \tag {4.2}
Gain(D,a)=Ent(D)−v=1∑V∣D∣∣Dv∣Ent(Dv)(4.2)
信息增益越大,表示使用特征a来对样本集进行划分所获得的纯度提升越大。
缺点:由于在计算信息增益中倾向于特征值越多的特征进行优先划分,这样假设某个特征值的离散值个数与样本集 DDD 个数相同(假设为样本编号),虽然用样本编号对样本进行划分,样本纯度提升最高,但是并不具有泛化能力。
4.3 - 4.4
基于信息增益的缺点,C4.5C4.5C4.5 算法不直接使用信息增益,而是使用一种叫增益率的方法来选择最优特征进行划分,对于样本集 DDD 中的离散特征 aaa ,增益率为
(4.3)Gainratio(D,a)=Gain(D,a)IV(a)
Gain_ratio(D,a)=\frac{Gain(D,a)}{IV(a)} \tag {4.3}
Gainratio(D,a)=IV(a)Gain(D,a)(4.3)
其中,
(4.4)IV(a)=−∑v=1V∣Dv∣∣D∣log2∣Dv∣∣D∣
IV(a)=-\sum_{v=1}^{V}\frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|} \tag {4.4}
IV(a)=−v=1∑V∣D∣∣Dv∣log2∣D∣∣Dv∣(4.4)
IV(a) 是特征 a 的熵。
增益率对特征值较少的特征有一定偏好,因此 C4.5C4.5C4.5 ** 算法选择特征的方法是先从候选特征中选出信息增益高于平均水平的特征,再从这些特征中选择增益率最高的**。
4.5
假定当前样本集合 DDD 中第 kkk 类样本所占的比例为 pk(k=1,2,...,∣y∣)p_k(k =1,2,...,|y|)pk(k=1,2,...,∣y∣),则 DDD 的基尼值为
KaTeX parse error: No such environment: align at position 8:
\begin{̲a̲l̲i̲g̲n̲}̲
Gini(p) &=\sum…
4.7 - 4.8
样本集 DDD 中的连续特征 aaa,假设特征 aaa 有 nnn 个不同的取值,对其进行大小排序,记为 {a1,a2,...,an}\lbrace{a^1,a^2,...,a^n}\rbrace{a1,a2,...,an},根据特征 aaa 可得到 n−1n-1n−1 个划分点 ttt,划分点 ttt 的集合为
(4.7)Ta={ai+ai+12∣1≤i≤n−1}
T_a=\lbrace{\frac{a^i+a^{i+1}}{2}|1\leq{i}\leq{n-1}}\rbrace \tag {4.7}
Ta={2ai+ai+1∣1≤i≤n−1}(4.7)
对于取值集合 $ T_a$ 中的每个 ttt 值计算将特征 aaa 离散为一个特征值只有两个值,分别是 {a>t}\lbrace{a} >t\rbrace{a>t} 和 {a≤t}\lbrace{a} \leq{t}\rbrace{a≤t} 的特征,计算新特征的信息增益,找到信息增益最大的 ttt 值即为该特征的最优划分点。
KaTeX parse error: No such environment: eqnarray at position 8:
\begin{̲e̲q̲n̲a̲r̲r̲a̲y̲}̲
Gain(D,a) &= \…