统计学习——第五章决策树
1.信息增益
熵和条件熵的定义
熵:表示随机变量不确定性的度量。H(P)
条件熵:表示在已知随机变量X的条件下随机变量Y的不确定性。H(Y|X)
信息增益
概念:得知特征X的信息而使得类Y的信息不确定性减少的程度。g(D,A)
g(D,A)=H(D)-H(D|A)
H(D):表示对数据集D分类的不确定性。
H(D|A):表示在特征A给定的条件下对数据集D进行分类的不确定性。
那么这两者之差就为信息增益,理解为由于特征A而使得数据集D的分类的不确定性减少的程度。可以看出来,信息增益的值是依赖特征的,不同的特征
原创
2022-03-25 20:57:36 ·
1268 阅读 ·
0 评论