决策树学习

本文深入探讨了决策树机器学习的基本原理和技术细节,包括如何选择最优划分属性、信息增益及增益率的概念、基尼指数的应用,以及预防过拟合的剪枝策略等。文章还讨论了连续值和缺失值的处理方法。

决策树 机器学习

本质:期望对已有数据集进行训练得到一个模型,来对新示例进行分类,这个分类的过程称之为决策,可看做:当前样本属于正类么。
1. 如何进行划分选择出最优划分属性
通过不断划分,希望决策树划分的分支结点所包含的样本尽可能属于同一类别。
1.1 信息增益
计算其信息熵,其值越小,D(数据集)的纯度越高。通过公式计算信息增益,计算属性a对样本集D进行划分后所获得的信息增益,信息增益越大,则用a进行划分所获得的纯度提升越大。对样例计算信息熵,然后通过样例计算的信息熵计算该属性的信息增益,比较各个属性的信息增益,最大的进行第一次划分。
不断划分得出决策树
2.1 增益率
防止出现纯度最大化的最求,既每个值分为一类。但一般不以该值做划分,而是先在候选划分属性中找到信息增益高于平均水平的,在从中找出增益率最高的。
1.2基尼指数
CATR决策树用该指数划分属性
2.1 剪枝处理
主要是对付过拟合使用的,防止分支过度,包含预剪枝和后剪枝两种方式,一种是结点划分前估计能够提高决策树泛化性能提高。另一种是对已经生成的决策树进行自底向上的考察,判断将子树化为叶节点是否提高性能。
使用留出法用作验证,将一部分作为验证集进行性能评估
2.2 预剪枝
计算剪枝前后的验证集精度,做精度高的决策。
但是预剪枝使很多分支都没有展开,可能有欠拟合的风险。
2.3 后剪枝
方法相同,但是同比于预剪枝欠拟合风险降低,泛化性能往往比较高,但是计算量增大
3.1 连续与缺失值
3.2 连续值
连续属性离散化技术,采用二分法进行处理,由公式进行计算
3.3 缺失值处理
4.1 多变量决策树

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值