统计学习方法——决策树

最新推荐文章于 2025-01-14 15:36:57 发布

凉风慕有信

最新推荐文章于 2025-01-14 15:36:57 发布

阅读量298

点赞数

分类专栏：读书笔记

本文链接：https://blog.youkuaiyun.com/sinat_36118365/article/details/101449408

版权

读书笔记专栏收录该内容

6 篇文章

订阅专栏

思维导图

在这里插入图片描述

决策树

是什么？

本质是：从训练数据集种归纳出一组分类规则，与训练数据集不想矛盾的决策树（即能对训练数据进行正确分类的决策树）可能有多个，也可能一个也没有。

决策树可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性，分类速度快。

If-then：决策树路径或其对应的if-then规则集合具有一个重要的性质，互斥并且完备，也就是说，每一个实例都被一条路径或一条规则所覆盖，而且只被一条路径或者一条规则覆盖。

概率分布：决策树将特征空间划分为互不相交的单元，并在每个单元定义一个类的概率分布。决策树的一条路径对应于划分中的一个单元，决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成，即P(Y|X)，叶结点（单元）上的条件概率往往偏向某一类。

决策树的学习

1、特征选择 2、决策树生成 3、剪枝

一、特征选择

特征选择在于选取对训练数据具有分类能力的特征。

如果利用一个特征进行分类的结果与随机分类的结果没有很大区别，则称这个特征是没有分类能力的。经验上扔掉这样的特征对决策树学习的影响不大。

通常，特征选择的准则是信息增益或信息增益比。

（1）信息增益

学习之前离不开熵的学习
熵:
熵度量的是随机变量的不确定性。熵越大，不确定性越大。
在这里插入图片描述
pi = 0时，0log0 = 0
条件熵：
条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。

当概率由数据估计（特别是极大似然估计）时，所对应的熵与条件熵分别称为经验熵与经验条件熵。
经验熵和经验条件熵:
当熵和条件熵中的概率由数据估计（特别是极大似然估计）得到时，所对应的熵与条件熵分别称为经验熵和经验条件熵
互信息：
熵与条件熵之差称为互信息。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。
信息增益：
表示得知特征X的信息而使得类Y的信息的不确定性减少的程度

选择方法时
给定训练数据集D和特征A，经验熵H(D)表示对数据集D进行分类的不确定性。而经验条件熵H(D|A)表示在特征A给定的条件下对数据集D进行分类的不确定性。那么它们的差，即信息增益，就表示由于特征A而使得对数据集D的分类的不确定性减少的程度。显然，对于数据集D而言，信息增益依赖于特征，不同的特征往往具有不同的信息增益。信息增益大的特征具有更强的分类能力。