
决策树
文章平均质量分 80
X_dmword
数据与生活同在
展开
-
决策树算法的研究
先来一段决策树相关的小故事:文献:周志华.机器学习[M].北京:清华大学出版社,2016: -最初的决策树算法是心理学家兼计算机科学家E.B.Hunt 1962年在研究人类的概念学习过程时提出的CLS(Concept Learning System),这个算法确立了决策树“分而治之”的学习策略。罗斯·昆兰在Hunt的指导下于1968年在美国华盛顿大学获得计算机博士学位,然后到悉尼大学任教...原创 2019-03-18 15:32:49 · 2272 阅读 · 0 评论 -
决策树划分与剪枝
1、决策树划分选择决策树学习的关键——如何选择最优划分属性。我们所期望的是,随着划分过程的不断进行,希望决策树的分支结点所包含的的样本尽可能属于同一类别,即结点的“纯度”要尽可能的高。1.1 信息增益要说信息增益,我们先来了解一下信息熵。“信息熵“是度量样本集合纯度最常用的一种指标。假设当前样本集合D中第k类样本所占的比例为,则D的信息熵定义为: ...原创 2019-03-18 15:31:52 · 952 阅读 · 0 评论 -
《机器学习》第四章决策树答案
1、证明对于不含冲突数据(即特征向量完全相同但标记不同)的训练集,必存在与训练集一致(即训练误差为0)的决策树anser 1:假设不存在与训练集一致的决策树,那么训练集训练得到的决策树至少有一个节点上存在无法划分的多个数据(若节点上没有冲突数据,那么总是能够将数据分开的)。这与前提-不含冲突数据 矛盾,因此必存在与训练集一致的决策树anser 2:考虑决策树的生成(书p74图4.2),算法...原创 2018-11-07 11:56:23 · 9551 阅读 · 0 评论 -
决策树模型(R语言)
R语言中最常用于实现决策树的有两个包,分别是rpart包和party包,其区别如下:rpart包的处理方式:首先对所有自变量和所有分割点进行评估,最佳的选择是使分割后组内的数据更为“一致”(pure)。这里的“一致”是指组内数据的因变量取值变异较小。rpart包对这种“一致”性的默认度量是Gini值。确定停止划分的参数有很多(参见rpart.control),确定这些参数是非常重要而微妙的,因...原创 2018-11-11 15:56:13 · 6822 阅读 · 2 评论