原文地址:http://siligence.ai/article-451-1.html
**决策树信息熵数理剖析**
信息熵记录拓展决策树
张⼀极
2019年年3⽉月9日
假如有一个集合为a[1,2,3,4,5],另⼀一个集合为b[1,2,3,2,2,4]
那么我们对应的应该如何获取两个数据集的信息熵呢,首先我们需要了了解信息熵的
定义,在数学上,信息熵作为数据集混乱程度的计算量化指标,我们获得最后的结果应该是通
过这个公式:
熵 = −∑n pilog2(pi)
i=1
在log2n当中,有这么⼀一个特点:与x轴交于[0,1],所以当体系混乱的时候,会有特别⼤的负值,那么体系稳定的时候,会有⼩小的负值存在log函数当中,最后归正,体系混乱的数据集,
信息熵就特别⼤大,体系稳定的数据,信息熵就会趋于0.
在数学当中,与信息熵有相同含义的数据有Gini系数:
Gini§ = ∑k pk(1 − pk)
k=1
构造决策树的基本想法是随着树深度的增加,节点的熵迅速降低,降低速度越快越好,
1
信息熵记录拓拓展决策树
那么⼀一开始我们应该如何去寻找rootnode,我们需要计算当前节点的熵值,⽐比如正样
本的概率为0.23,负样本的概率为0.77,熵为[ -0.23*log2_0.23-0.77log2_0.77 ]
信息增溢,gain(fe