决策树学习算法 - ID3算法

本文深入探讨了ID3算法的基本概念、熵值公式及其应用实例,详细解释了如何通过熵值判断样本集的均匀性,并通过实例展示了如何利用算法进行决策树构建。同时,分析了ID3算法的缺点,包括不进行回溯导致的局部最优解问题及对噪声数据的敏感性。

ID3算法概要:

 

熵值公式:

举例:

熵值公式用于判断一个样本集是否均匀分布,值的区间在[0,1]内,他有以下特点

  1.分布越均匀,值越大

  2.如果成单一分布,那么值为0

图例:

故可以推出通式(其中C为不同的状态):

 

又推出某个属性相对于结果的公式(其中A为属性,为属性集):

举例:

又:

我们可以看出Humidity比Wind更有价值。

PS:

1.用属性分割后结果越平均,越小,属性的价值越小

2.用属性分割后结果越不平均,越大,属性的价值越大(当属性呈一边倒时,值为最大值,即本身)

 

 

 

-------------------------------------------------------------------------------------------------------------------------------------------

 

 

一个完整的实例:

样本集:

 

 

取Outlook为第一个分支节点。

继续选择下个测验属性Humidity。

最后:

 

-------------------------------------------------------------------------------------------------------------------------------------------

算法缺点:

1.ID3算法不进行回溯,其收敛到局部最优解,而不是全局最优解。

2.当存在错误或噪声时,会产生过渡拟合

 

----------------------------

转载于:https://www.cnblogs.com/otomii/p/3457161.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值