决策树与随机森林学习笔记(一):原理

本文深入探讨决策树算法的基本概念、原理及应用,包括信息增益、信息增益率和Gini系数的选择标准,同时介绍了如何通过随机森林增强模型性能,避免过拟合。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

决策树是一种监督学习算法。它适用于类别和连续输入(特征)和输出(预测)变量。

文章整体框架

在这里插入图片描述

1、基本概念

决策树是一个类似于流程图的树结构:其中每一个内部节点表示在一个属性上的测试,每个分支代表一个属性输出,
而每个树叶结点代表类或类分布。树的最顶层是根结点。
分支:决策树算法以树状结构表示数据分类的结果。每个决策点实现一个具有离散输出的测试函数,记为分支。
其既能做分类又能做回归的。
结构示意图如下:
在这里插入图片描述
决策树分为两个阶段:
在这里插入图片描述

2、基本原理

注:需要了解的几个概念
(1) 熵定义:其和化学里面的概念是相同的,指物体内部的混乱程度。混乱程度(纯度)低则熵值小,反之!
(2)熵值与Gini系数之间的关系:
在这里插入图片描述
上式中将-lnx通过泰勒式展开得到1-x得到:
在这里插入图片描述
2.1、算法原理(信息增益)
一个决策树上的节点或者是根节点,都是通过计算机运算出来得结果,如下图所示。
在这里插入图片描述
构造决策树得原则:
构造树的基本想法是随着树的深度的增加,节点的熵迅速地降低。熵降低的速度越快越好,这样就可以保证决策树的高度最矮。
注:决策树适合的高度将降低数据的中的噪音点分类错误。即分支过多可能会导致过拟合。

通过一个例子来理解下原理,下面是一个天气、温度、湿度、风力与决定是否打球的数据。
在这里插入图片描述
根据不同的特征,可以设计出不同的根节点的决策树,如下图所示,
在这里插入图片描述
但是究竟以哪个根节点是合理的呢?
应该对没有属性的情况下的熵值,故只考虑在没有给定任何天气信息时,根据打球的数据,可知新的一天去打球的概率时9/14,不打球的概率是5/14。故可得数据自身的熵值为:
在这里插入图片描述
然后对后选的划分节点进行求熵值的操作。
在这里插入图片描述
信息熵等于概率值乘以熵值

在这里插入图片描述
信息增益等于系统的熵值减去节点的熵值,信息增益越大证明数据的纯度增加。因此要选取信息增益最大的点为根节点
因此可以通过递归的方式构造跟节点以下的其他节点。

2.2、缺点:
如果样本特征中存在一个特征,其与结果没有关系的话,将有可能导致信息增益变大,从而影响到决策树的根节点的选取。
于是引入了新的概念:信息增益率。信息增益率等于求得的信息增益除以自身的熵值。
2.3、评价函数

通过评价函数可以评价出当前决策树的性能。
在这里插入图片描述
Nt是指的是叶子节点的熵值或者gini系数。H(t)指的是样本的权种值
在这里插入图片描述
2.4、算法提升:

针对ID3算法的不足,提出了C4.5(信息增益率),CART(Gini系数)的方法
在这里插入图片描述
问题1:任何处理连续变量的属性。
在这里插入图片描述

问题2:解决过拟合方法之剪枝
在这里插入图片描述
评价函数:
在这里插入图片描述
在这里插入图片描述叶子节点的个数。

3、随机森林

注:(1)训练随机森林的数据是有放回的采样,即数据可以一直被使用。
(2)随机森林:随机的意义:1、数据样本的选取的随机性(建立决策树使用的数据的个数和数据都是随机的)。
2、数据特征选取的随机性

从样本集中进行有放回的采样,通过样本的随机选取的特征上,对样本建立决策树(ID3、C4.5、CART、SVM、Logistic回归等)
重复上面两步m次,产生m个决策树,故搭构成了随机森林。之后将待预测数据放到随机森林,最后统计出随机森林中的决策树结果,采取少数服从多数的原则决定待预测数据属于那一类 。如下图所示!
在这里插入图片描述
在这里插入图片描述
当数据集很大的时候,我们随机选取数据集的一部分,生成一棵树,重复上述过程,我们可以生成一堆形态各异的树,这些树放在一起就叫森林。
选取过程:
取某些特征的所有行作为每一个树的输入数据。
然后把测试数据带入到每一个数中计算结果,少数服从多数,即可求出最终分类。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

脑咖学术基地

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值