16、决策树和规则的分治分类及数值数据预测回归方法

决策树和规则的分治分类及数值数据预测回归方法

决策树与规则学习器的差异

决策树和规则学习器是两种不同的分类方法,它们采用“贪心”算法根据特征值对数据进行划分。决策树运用分治策略创建类似流程图的结构,规则学习器则通过分离和处理数据来识别逻辑上的“如果 - 那么”规则,且这两种方法产生的模型无需统计学背景就能解读。

规则学习器和决策树在处理数据时存在不同结果。以青蛙分类为例,在“在陆地上行走”的决策将青蛙分开后,规则学习器允许青蛙在“没有皮毛”的决策中被重新分类,而决策树不能修改现有的划分,必须为青蛙创建单独的规则。一方面,规则学习器可以重新审视之前规则未涵盖的案例,通常能找到比决策树更简洁的规则集;另一方面,这种数据的重复使用意味着规则学习器的计算成本可能比决策树略高。

规则学习器识别有毒蘑菇示例

每年都有很多人因误食有毒野生蘑菇而生病甚至死亡,由于许多蘑菇外观相似,即使是经验丰富的采集者也可能中毒。而且,识别野生蘑菇是否有毒不像识别毒橡树或毒常春藤那样有明确规则,许多传统规则还会提供危险或误导性信息。规则学习算法能生成易于理解的规则,适合用于此分类任务,但规则的实用性取决于其准确性。

步骤 1:收集数据

为了识别区分有毒蘑菇的规则,我们使用卡内基梅隆大学 Jeff Schlimmer 的蘑菇数据集,该原始数据集可在 UCI 机器学习库(http://archive.ics.uci.edu/ml)免费获取。数据集包含 8124 个蘑菇样本的信息,来自《奥杜邦协会北美蘑菇野外指南(1981)》中列出的 23 种有鳃蘑菇。指南将蘑菇分为“绝对可食用”“绝对有毒”或“可能有毒,不建议食用”,本数据集将后一组与“绝对有毒”

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值