初识机器学习_03 决策树

本文介绍了决策树算法的基本原理及其在数据挖掘中的应用。通过评估特征的信息熵或基尼不纯度来划分数据集,适用于数值型和标称型数据。讨论了决策树的优点如易于理解和处理不完整数据等,同时也指出了潜在的过拟合风险。

  决策树也是最经常适用的数据挖掘算法

  决策树可以适用不熟悉的数据集合,并从中提取一系列规则,机器学习算法最终将使用这些规则(ps:专家系统中常用决策树)

  

  优点:计算复杂度不高,输出易于理解,中间值缺失不敏感,可处理不相关特征数据

  缺点:可能产生过度匹配

  适用:数值型,标称型

 

  原理:找到当前数据集在划分数据分类时 起决定作用的特征 ,为了找到这个特征,必须评估每个特征,再完成测试后,原始数据被分为几个子集,-->递归次过程,直到根分支上都是统一类型

  评估方法:1求得信息熵,根据获取最大信息增益的原则划分数据集    ref:信息论度量信息方法。

         2基尼不纯度。 

转载于:https://www.cnblogs.com/govin/p/3687287.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值