机器学习（周志华）——第四章决策树

最新推荐文章于 2024-08-31 15:56:14 发布

原创

最新推荐文章于 2024-08-31 15:56:14 发布 · 1k 阅读

4 ·

CC 4.0 BY-SA版权

本文介绍了决策树学习的三个关键步骤：特征选择、决策树生成和修剪。常见算法包括ID3、C4.5和CART。根节点代表所有样本，内部节点表示特征，叶节点表示类别。特征选择通过信息增益、增益率和基尼指数准则。预剪枝用于防止过拟合。ID3以信息增益为标准，C4.5使用增益率避免过多属性偏好，而CART基于基尼指数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习（周志华）——第 4 章决策树

1、决策树学习算法包括哪几个部分？常用的算法有哪些？

决策树是一种基本的分类与回归方法，主要包含了 3 个步骤：特征选择、决策树的生成和决策树的修剪. 常见的决策树算法有：ID3，C4.5，CART.

2、决策树的根节点、内部节点和叶节点分别表示什么？

根节点 —— 一个特征或属性（包含所有测试样本）
内部节点 —— 一个特征或属性（包含部分测试样本）
叶节点 —— 一个类
决策树学习的损失函数通常是正则化的极大似然函数

3、特征选择的准则有哪些（如何选择最优划分属性）？

在属性划分的过程中，我们希望决策树的分支节点所包含的样本尽可能属于同一类别，即节点的 “纯度” 越来越高，这样就可以减少划分次数，节约计算资源.
**主要的准则有：**信息增益（information gain）、增益率（gain ratio）、基尼指数（gini）
(1) 信息增益
介绍信息增益前，需要对 “信息熵” 进行解释.
信息熵是度量样本集合纯度最常用的一种指标，信息熵越小，说明样本集合纯度越高. 假设当前集合 $D$ 中第 $k$ 类样本所占的比例为 $p_{k}$ （ $k$ = 1,2,…,| $y$ |），则 $D$ 的信息熵定义为：
$-\sum_{k=1}^{|y|}p_{k}log_{2}p_{k}$
假定对西瓜的离散属性 “敲声”(用 a 表示) 有 3 (用 v 表示，v=1,2,3) 个可能的取值 {浊响，沉闷，清脆}，若使用 “敲声” 来对样本集 $D$ 进行划分，则会产生 3 个分支结点，其中第 1 个分支结点包含了 $D$ 中所有在 “敲声” 这一属性上取值为 “浊响” 的样本，记为 $D^{1}$ . 我们可根据下式计算出 $D^{1}$ 的信息熵，再考虑到不同的分支结点所包含的样本数不同，给分支结点赋予权重 | $D^{v}$