机器学习 -- 初识决策树

决策树


一、概述

1. 分类问题的步骤

2. 决策树的优点

3. 决策树解决问题的一般方法

4. 决策树的3个步骤

5. 决策树的特点

二、决策树建模与学习

1. 什么是决策树

2. 决策树与if-then规则

3. 如何学习一个决策树

三、特征选择

1. 什么是特征选择

2. 熵

3. 条件熵

4. 信息增益

5. ID3算法

6. 信息增益比

四、决策树生成

1. ID3算法

五、决策树的剪枝(Decision tree pruning)

1. 理想的决策树

2. 决策树面临的问题

3. 解决方法:剪枝

4. 判断剪枝的好坏

5. 决策树剪枝算法

6. CART算法

总结


一、概述

决策树是一种典型的分类方法

首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。

本质上决策树是通过一系列规则对数据进行分类的过程。

1. 分类问题步骤

(1)模型构建(归纳)通过对训练集合的归纳,建立分类模型。

(2)预测应用(推论)建立的分类模型,对测试集合进行测试。

2. 决策树的优点

(1)推理过程容易理解,决策推理过程可以表示成If Then形式;

(2)推理过程完全依赖于属性变量的取值特点;

(3)可自动忽略目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量的数目提供参考。

3. 决策树解决问题的一般方法

4. 决策树的3个步骤

  1. 如何确定每个分支节点,即选择特征
  2. 如何建立决策树,即决策树的生成
  3. 如何避免过拟合,即决策树的剪枝

5. 决策树的特点

  1. 叶子节点是结论
  2. 树的路径唯一确定了一个样例的判断过程
  3. 非叶子节点是特征

二、决策树建模与学习

1. 什么是决策树

分类决策树选择器是树形结构,用于对样例分类,决策树的基本组成部分:决策结点(内部节点)、分支和叶子。

结点 -- 内部节点: 特征和属性

     -- 叶子节点:分类

有向边  -- 特征的不同取值

   决策树中最上面的结点称为根结点。是整个决策树的开始。

   每个分支是一个新的决策结点,或者是树的叶子。

   每个决策结点代表一个问题或者决策.通常对应待分类对象的属性。

   每个叶结点代表一种可能的分类结果

   在沿着决策树从上到下的遍历过程中,在每个结点都有一个测试。对每个结点上问题的不同测试输出导致不同的分枝,最后会达到一个叶子结点。这一过程就是利用决策树进行分类的过程,利用若干个变量来判断属性的类别。

2. 决策树与if-then规则

  从根节点开始对实例的每个特征进行测试,根据结果将其分支,递归的测试分配,直到叶子节点,从而构造了决策树。

   决策树分类器的实质就是一系列的if-then规则

路径  ---  规则

内部节点 ---  判定规则

叶子节点 --- 决策结论

(1)性质:互斥且完备(即:每个实例都是有且仅有一条路径或规则覆盖。)

(2)特点:

特征空间被划分为不相交的单元或区域。

条件概率分布: 在每个单元中定义的一个类的概率分布。

每个叶节点的条件概率都趋向于具有较高概率的一类。

当决策树进行分类时,该节点的实例被强制归入具有高条件概率的类别。

(3)例子:

(每个矩形是一个单元,假设只有正类和负类,判断条件概率大的就属于该类)

3. 如何学习一个决策树

对于数据集有n个特征,yi对应每个样例的类标签,N为容量

学习目标:构造一个决策树模型,通过训练实例对样本进行正确的分类

实质:从训练数据中归纳出一系列的if-then规则

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小白Rachel

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值