机器学习(周志华)——第 4 章 决策树
1、决策树学习算法包括哪几个部分?常用的算法有哪些?
决策树是一种基本的分类与回归方法,主要包含了 3 个步骤:特征选择、决策树的生成和决策树的修剪. 常见的决策树算法有:ID3,C4.5,CART.
2、决策树的根节点、内部节点和叶节点分别表示什么?
根节点 —— 一个特征或属性(包含所有测试样本)
内部节点 —— 一个特征或属性(包含部分测试样本)
叶节点 —— 一个类
决策树学习的损失函数通常是正则化的极大似然函数
3、特征选择的准则有哪些(如何选择最优划分属性)?
在属性划分的过程中,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即节点的 “纯度” 越来越高,这样就可以减少划分次数,节约计算资源.
**主要的准则有:**信息增益(information gain)、增益率(gain ratio)、基尼指数(gini)
(1) 信息增益
介绍信息增益前,需要对 “信息熵” 进行解释.
信息熵是度量样本集合纯度最常用的一种指标,信息熵越小,说明样本集合纯度越高. 假设当前集合 D D D 中第 k k k 类样本所占的比例为 p k p_{k} pk( k k k = 1,2,…,| y y y|),则 D D D 的信息熵定义为:
E n t ( D ) = − ∑ k = 1 ∣ y ∣ p k l o g 2 p k Ent(D) = -\sum_{k=1}^{|y|}p_{k}log_{2}p_{k} Ent(D)=−k=1∑∣y∣pklog2pk
假定对西瓜的离散属性 “敲声”(用 a 表示) 有 3 (用 v 表示,v=1,2,3) 个可能的取值 {浊响,沉闷,清脆},若使用 “敲声” 来对样本集 D D D 进行划分,则会产生 3 个分支结点,其中第 1 个分支结点包含了 D D D 中所有在 “敲声” 这一属性上取值为 “浊响” 的样本,记为 D 1 D^{1} D1. 我们可根据下式计算出 D 1 D^{1} D1 的信息熵,再考虑到不同的分支结点所包含的样本数不同,给分支结点赋予权重 | D v D^{v}