23、决策树节点数量与误分类数量的关系及异常值挖掘

决策树节点数量与误分类数量的关系及异常值挖掘

1. 异常值挖掘概述

在大型知识库中,识别罕见情况或异常值的需求日益增长。如今,异常值挖掘已成为数据挖掘的一种独立方法。找出数据中的异常值至关重要,这些数据可能是真正的错误,也可能是罕见情况,而罕见情况是非常重要的知识,值得深入挖掘。

对于多维数据集而言,这个问题极其困难,因为需要考虑诸多方面,例如:
- 不同类型的数据。
- 数据中的缺失值。
- 数据错误的情况。
- 独特的数据等。

该领域已有大量研究反映了与异常值挖掘相关的多样性问题。其目标是提出一种在基于规则的知识库中发现异常值的实用方法。了解哪些规则是罕见的(与其他规则不同)非常重要,因为这能让知识工程师与领域专家合作来扩展知识。在这类数据集中发现异常值是一个较新的研究方向,目前已经迈出了初步的步伐,包括引入在多维数据中发现异常值的概念、描述一些异常值检测方法,并进行了相关的初步实验。

2. 决策树研究工具介绍

我们创建了一个名为 Dagger 的决策树(以及决策规则)软件系统,它基于动态规划,可用于依次优化决策树(和决策规则)的各种成本函数,如深度(长度)、平均深度(平均长度)、节点总数和误分类数量。本文将介绍该软件的一个新扩展工具,用于研究决策树的节点数量和误分类数量之间的关系,并通过 UCI ML 存储库中的决策表来展示该工具的工作情况。该算法及其在 Dagger 软件工具中的实现,与作者设计的类似算法一起,可用于粗糙集的研究,其中决策树被用作分类器。

3. 决策树基本概念
  • 决策表 :决策表
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值