机器学习-决策树-ID3, C4.5

本文介绍了决策树的基本概念,包括信息熵、信息增益及分裂信息等关键指标,并详细阐述了如何利用这些指标构建决策树模型。此外,还讨论了决策树的优点及如何避免过拟合的问题。

概念:

决策树:节点间的组织方式像一棵倒树,以attribute为节点,以attribute的不同值为分支。

 

重点概念:

1. 信息熵:

熵是无序性(或不确定性)的度量指标。假如事件A的全概率划分是(A1,A2,...,An),每部分发生的概率是(p1,p2,...,pn),那信息熵定义为:(通常以2为底数,所以信息熵的单位是bit


熵越大,越无序。当事件A发生概率很大时,熵很小(所以有负号),越稳定。

由上可知,我们希望构造一棵熵递减的树(属性加得越多,越稳定),而且熵缩小地越快越好,这样可以得到一棵最矮的树。

2. 信息增益:


3. 集合S对于属性A的分裂信息

4. 

 

5. 树的构造:

树的构造涉及到属性的选择。哪个属性作为根节点呢?首先根据每个属性计算属性相对应的信息熵,然后计算不考虑任何属性的整体信息熵。有了以上两类信息熵,便可以计算针对每个属性的信息增益以及信息增益率。选择信息增益最大的为优先属性(ID3)或选择信息增益率最大的属性为优先属性(C4.5

6. 图的形象表示:

 

7. 决策树优点:

a) 训练数据可以包含错误。

b) 训练数据可以包含缺少属性值的实例。

8. 避免过度拟合:

a) 错误率降低修剪

i. 修剪一个结点的步骤:

ii. ·删除以此结点为根的子树,使它成为叶子结点,把和该结点关联的训练样例的最常见分类赋给它。

iii. ·仅当修剪后的树对于验证集合的性能不比原来的树差时才删除该结点。

iv. 反复修剪结点,每次总是选择那些删除后可以最大提高决策树在验证集合上的精度的结点。直到进一步的修剪是有害的为止(即降低了在验证集合上的精度)。

b) 规则后修剪(C4.5

i. 从训练集合推导出决策树,增长决策树直到尽可能好地模拟训练数据,允许过度拟合发生。

ii. 将决策树转化为等价的规则集合,方法是从根结点到叶子结点的每一条路径创建一条规则。

iii. 通过删除任何能导致估计精度提高的前件(precondition)来修剪(泛化)每一条规则。

iv. 按照修剪过的规则的估计精度对它们进行排序,并按照这样的顺序应用这些规则来分类后来的实例。

9. ID3C4.5比较

a) ID3用信息增益选择属性时偏向于选择分枝比较多的属性值,即取值多的属性;C4.5削弱了这个属性。

b) ID3不能处理连贯属性(相互有关系的属性)

 

参考链接

 

 

 

源码来自:https://pan.quark.cn/s/41b9d28f0d6d 在信息技术领域中,jQuery作为一个广受欢迎的JavaScript框架,显著简化了诸多操作,包括对HTML文档的遍历、事件的管理、动画的设计以及Ajax通信等。 本篇文档将深入阐释如何运用jQuery达成一个图片自动播放的功能,这种效果常用于网站的轮播展示或幻灯片演示,有助于优化用户与页面的互动,使网页呈现更加动态的视觉体验。 为了有效实施这一功能,首先需掌握jQuery的核心操作。 通过$符号作为接口,jQuery能够迅速选取DOM组件,例如$("#id")用于选取具有特定ID的元素,而$(".class")则能选取所有应用了某类class的元素。 在选定元素之后,可以执行多种行为,诸如事件监听、样式的变更、内容的更新以及动画的制作等。 关于“一个基于jQuery的图片自动播放功能”,首要任务是准备一组图片素材,这些素材将被整合至一个容器元素之中。 例如,可以构建一个div元素,将其宽度设定为单张图片的尺寸,再借助CSS实现溢出内容的隐藏,从而构建出水平滚动的初始框架。 ```html<div id="slider"> <img src="image1.jpg" alt="Image 1"> <img src="image2.jpg" alt="Image 2"> <!-- 更多图片内容... --></div>```接着,需要编写jQuery脚本以实现图片的自动切换。 这通常涉及到定时器的运用,以设定周期性间隔自动更换当前显示的图片。 通过使用`.fadeOut()`和`.fadeIn()`方法,能够实现图片间的平滑过渡,增强视觉效果。 ```javascript$(document).re...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值