决策树

最新推荐文章于 2025-09-03 19:50:10 发布

程序猿蓝桉

最新推荐文章于 2025-09-03 19:50:10 发布

阅读量235

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习决策树人工智能数据结构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/a3464684/article/details/85248442

机器学习专栏收录该内容

5 篇文章

订阅专栏

机器学习中分类和预测算法的评估：

准确率

速度

强壮性：有噪声可以不受干扰

可规模性：数据特别大（指数级增长）的能够继续使用

可解释性：当我们算法对特征值的选择和归类的时候，能够非常容易解释我们学习出来的模型

决策树（分类算法）

决策树是一个类似于流程图的树结构：其中，每个内部节点表示在一个属性上的测试，每个分支比哦啊是一个属性的输出，而每个数叶节点代表类或类分布。数的最顶层是根节点。

信息熵：信息量的度量就等于不确定的多少（单位bit）

变量的不确定性越大，熵也就越大

1、决策树归纳算法（ID3）

选择属性判断节点

信息获取量（infomation Gain）：

Gain（A） = info（D）- info_A（D）

通过A来作为节点分类获取了多少信息

info_age（D）是按照年龄为分类方法取得的信息量

决策树的创建过程

1、树以代表训练样本的单个节点开始

2、如果样本都在同一个类，则该节点为树叶，并用该类标号

3、否贼，算法使用成为信息增益的基于熵的度量作为启发信息，选择能够最好的样本分类属性。该属性成为该节点的 ‘测试’或‘判定’属性。在算法的该版本中

4、所有的属性都是分类的，即离散值。连续属性离散化。

5、对测试属性的每个已知的值，创建一个分支，并据此划分样本

6、算法使用同样的构成，递归形成分割划分上的样本判定树。一旦一个属性出现在一个节点上，就不必该节点的任何后代上考虑他。

7、递归划分步骤仅当下列条件之一成立停止：

a、给定节点的所有样本属于同一类

b、没有剩余属性可以用来进一步划分样本。在此情况下，使用多数表决

这涉及将给定的结点转换成树叶，并用样本中的多数所在的类标记它。替换的，可以存放节点样本的类分布

c、分支test_attribute =a ,没有样本。在这种情况下，以samples中的多数类创建一个树叶

其他算法：C4.5 ， CART

共同点：贪心算法，自上而下

区别：属性选择度量方法不同C4.5（Gain ratio），CART（Gain index） ID3（Infomation Gain）

如何处理连续性变量的属性

1、树剪枝叶（避免overfitting）

1.1 先剪枝

1.2 后剪枝

2、决策树的优点：

直观，便于理解，小规模数据集有效

3、决策树的缺点：

处理连续变量不好

类别较多时，错误增加的比较快

可规模性一般

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。