
决策树算法
文章平均质量分 65
Vicky_xiduoduo
这个作者很懒,什么都没留下…
展开
-
机器学习算法——决策树8(后剪枝处理实例)
本节使用的数据为下列链接中的表1、表2(机器学习算法——决策树7(预剪枝处理实例)_Vicky_xiduoduo的博客-优快云博客)1. 理论讲解后剪枝是从训练集生成一棵完整决策树。上节已经分析了,未剪枝之前决策树的验证集精度为42.9%。图1 未剪枝前的决策树基于上图,后剪枝首先考虑纹理,若将其领衔的分支剪除,则相当于把纹理替换成叶节点,替换后的叶节点包含编号{7,15},于是,该叶节点的类别标记为“好瓜”,此时决策树验证集的精确度提升至57.1%。于是后剪枝策略决定剪枝。然后考原创 2022-04-18 16:29:49 · 2530 阅读 · 0 评论 -
机器学习算法——决策树7(预剪枝处理实例)
剪枝理论学习请参考如下网址:机器学习算法——决策树4(剪枝处理)_Vicky_xiduoduo的博客-优快云博客_剪枝 机器学习不管是预剪枝还是后剪枝,都需要对决策树进行“泛化能力”的评估。本节的实例讲解采用留出法评估决策树的泛化能力。故需要预留一部分数据用作“训练集”,一部分用作“验证集/测试集”。将西瓜2.0数据集随机划分成两部分,如下表所示。表1 西瓜数据集2.0划分出的训练集 编号 色泽 根蒂 敲声 纹理 脐部 触感 好瓜 1 青绿原创 2022-04-17 20:50:47 · 3169 阅读 · 0 评论 -
机器学习算法——决策树6(划分属性选择实例)
本节讲解根据信息增益如何选择划分属性与算法实现,以西瓜数据集为例进行讲解。1. 理论求信息增益(理论参考:机器学习算法——决策树1(ID3决策树算法)_Vicky_xiduoduo的博客-优快云博客)。表1 西瓜数据集2.0 编号 色泽 根蒂 敲声 纹理 脐部 触感 好瓜 1 青绿 蜷缩 浊响 清晰 凹陷 硬滑 是 2 乌黑 蜷缩 沉闷 清晰 凹陷 硬滑 是.原创 2022-04-12 20:19:33 · 4639 阅读 · 1 评论 -
机器学习算法——决策树5(连续与缺失值处理)
1.连续值处理由于连续属性的可取值数目不再有限,因此,不能直接根据连续属性的可取值来对结点进行划分。此时,连续属性离散化技术可派上用场。最简单的策略是采用二分法(bi-partition)对连续属性进行处理。给定样本集D和连续属性a,假定a在D上出现了n个不同的取值,将这些值从小到大进行排序,记为{}.基于划分点t可将D分为子集 和 .: 包含那些在属性a上取值不大于t的样本。:包含那些在属性a上取值大于t的样本。显然,对相邻的属性取值和来说,在区间[,)中取任意值所产生的划分结..原创 2022-04-07 22:00:26 · 2367 阅读 · 0 评论 -
机器学习算法——决策树4(剪枝处理)
ID3算法优缺点:① 不能对连续数据进行处理,只能通过连续数据离散化进行处理;② 采用信息增益容易偏向取值较多的特征,准确率不如信息增益率;③ 缺失值不好处理。④ 没有采用剪枝,决策树的结构可能过于复杂,容易出现过拟合。C4.5算法优缺点:① 产生的规则容易理解,准确率高,实现简单;② 对数据进行多次顺序扫描和排序,效率低;③ 只适合小规模数据集,需要将数据放到内存中。那如何进行剪枝呢?剪枝(pruning)是决策树学习算法对付“过拟合”的主要手段。在决策树学习中原创 2022-03-15 15:26:31 · 4469 阅读 · 0 评论 -
机器学习算法——决策树3(CART决策树算法)
CART决策树使用“基尼指数”(Gini index)来选择划分属性。我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即节点的纯度越来越高。数据集D的纯度可用基尼值来度量:Gini(D)越小,则数据集D的纯度越高。属性a的基尼指数定义为:在候选属性集合A中,选择那个使得划分后基尼指数最小的属性作为最优划分属性,即前面讲完了ID3、C4.5算法和CART决策树算法怎么选择最优划分属性,下面讲解决策树通用算法流程:输入:训练集D={{x1,y1},{x2,y2},原创 2022-03-14 22:02:20 · 2799 阅读 · 0 评论 -
机器学习算法——决策树2(C4.5决策树算法)
著名的C4.5决策树算法不直接使用信息增益,而是使用“增益率”(gain ratio)来选择最优划分属性。选择信息增益率的目的是:克服ID3算法中用信息增益选择属性时偏向选择取值多的属性。增益率定义如下:其中,D: 样本集合,a: 离散属性,IV(a):属性a的“固有值”(intrinsic value)。:属性a上取值为的样本。属性a的可能取值数目越多(即V越大),IV(a)的值通常会越大。注意:增益率准则对可取值数目较少的属性有所偏好(从上述公式中得出)。因此,C4.5算原创 2022-03-13 17:04:45 · 1921 阅读 · 0 评论 -
机器学习算法——决策树1(ID3决策树算法)
1. 机器学习分为监督学习、无监督学习、半监督学习。决策树(Decision Tree)是一种常用的分类方法,是一种监督学习。一般的,一棵决策树包含一个根节点、若干个内部节点和若干个叶节点;叶节点对应于决策结果,其他每个节点则对应于一个属性测试。每个节点包含的样本集合根据属性测试的结果被划分到子节点中;根节点包含样本全集。从根节点到每个叶节点的路径对应了一个判定测试序列。2. ID3决策树算法信息熵是度量样本集合纯度最常用的一种指标。利用信息熵原理选择信息增益最大的属性作为分类属性,递归原创 2022-03-11 21:41:29 · 1669 阅读 · 0 评论