决策树模型的用途

本文介绍了决策树的概念,强调其作为条件概率分布的性质,以及模型的可读性和快速分类能力。内容涵盖决策树的结构,条件概率分布的解释,以及决策树生成和剪枝的步骤。特征选择涉及信息增益、信息增益比和基尼指数等方法。决策树剪枝通过优化损失函数降低模型复杂度,以达到全局优化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概念

定义在特征空间与类空间上的条件概率分布,即给定特征条件下类的条件概率分布;也可以认为是if-then规则的集合

优点

模型具有可读性,分类速度快。

模型

首先,介绍一下决策树模型:

结点有向边组成,结点又可分为内部结点叶结点内部结点表示一个特征或属性叶结点表示一个

决策树与条件概率分布

决策树所表示的条件概率分布由各个单元给定条件下的类的条件概率分布组成。若X表示特征的随机变量,取值于给定划分下单元的集合,Y表示类的随机变量,取值于类的集合,则该条件概率分布可以表示为P(Y|X)。

各叶结点(单元)上的条件概率往往偏向于某一类,即属于某一类的概率较大。

决策树本质

从训练数据集中归纳出一组分类规则。

步骤

决策树的学习常包含三个步骤:

特征选择

决策树的生成

决策树的剪枝

特征选择

是决定用哪个特征来划分特征空间。三种方法:

信息增益

信息增益比

基尼指数

决策树的生成

基本方法,从根结点出发,对结点计算所有可能的特征的信息增益(或信息增益比或基尼指数),选择信息增益值(或信息增益比或基尼指数)较大的特征作为结点的特征。

几种选择标准的不同(ID3, C4.5, CART)可参考:决策树

决策树的剪枝

通过极小化决策树整体的损失函数或代价函数来实现。

两者的不同:

决策树的生成只考虑了通过提高信息增益或信息增益比对数据进行更好的拟合,而剪枝通过优化损失函数还减小了模型的复杂度。

决策树生成学习局部的模型,而决策树剪枝学习整体的模型。

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值