“信息熵”(information entropy)是度量样本集合纯度的一种常用指标
信息熵计算公式:

其中
为集合中第K类属性所占样本的比例。
Ent(D)的值越小,则D的纯度越高
假定离散属性a有x个可能的取值{a1,a2,…,ax},若使用a来对样本集D进行划分,则会产生x个分支节点,其中第x个分支结点包含了D中所有在属性a上取值为ax的样本,记为Dx。
则根据上述信息熵的计算公式,同样可以计算出Dx的信息熵,再考虑到不同的分支节点所包含的样本数不同,给予分支结点赋予权重|Dx|/|D|,即样本数越多的分支结点的影响就越大,于是可以计算出用属性a对样本集D进行划分所获得的“信息增益”

ID3算法便是使用信息增益为准则来进行属性划分的。
利用以上两个公式我们可以完成决策树的创建。
对于小数据集的模拟:

本文介绍了决策树ID3算法,通过信息熵和信息增益来选择最优属性进行数据划分。文章提供了小数据集的手动模拟过程,并展示了使用weka工具的仿真模拟结果,最后给出了Python代码实现的决策树ID3算法示例。
最低0.47元/天 解锁文章
1574

被折叠的 条评论
为什么被折叠?



