决策树

本文深入解析决策树这一常见机器学习算法,阐述了决策树的基本构建原理,包括节点生成、属性判断及分类规则,并探讨了创建良好泛化能力决策树的挑战。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

决策树是一种常见的机器学习,可以从给定的数据之中创建一个模型,模型创建后可以对新的样本进行判定和识别。

决策树的生成如下:

假设有训练集D=\left \{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m},y_{m}) \right \}

属性集A=\left \{ a_{1},a_{2},a_{3},...,a_{d}, \right \}

我们基于此构造一个决策树(最基本的),大致思路如下:

生成node节点。然后开始根据属性进行判断,如果训练集D的所有样本都属于属性集A的一个属性a_{x},则node就作为a_{x}类的叶节点。如果属性集A为空或者剩下训练集D的所有属性取值相同,那么将node设为叶节点,其类别设为D中分类最多的一类的类别。如果当前训练集D为空,将分支节点node设为叶子结点,类别为训练集D中样本最多的类的类别。

简单来说,就是先创建节点node。然后分为以下三种情况进行分析。

1.所有训练集同属于一个类别,不用划分。

2.当前属性集为空,或者所有样本在所有属性上取值相同,无法继续划分。

3.当期的训练集为空。

我们比较1和2的情况来看,1是所有训练集都属于同一类别,2是在部分训练集属性集A上的取值相同并有可能在别的属性上不同(我们没有考虑的属性)。对于不同情况的node划分也不同。2是将node选做在属性集上分类类别最多的一类,3则是没有了属性集选项了,node的类别是其父节点之中所含类别最多的类别。

创建决策树不难,利用递归并设定好返回条件即可,但如何创建一颗具有良好泛化能力并高效率的决策树是难点,也是下一步主要的工作之一。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值