35、数据驱动的规则质量度量自适应选择以改进规则归纳算法

数据驱动的规则质量度量自适应选择以改进规则归纳算法

1. 引言

知识发现是从数据中提取未知、非平凡且有用模式的过程。规则形式因其简单性,成为了一种流行的模式表示方式,其形式为:

IF a1 ∈ Va1 and ... and ak ∈ Vak THEN d = Vd

规则归纳基于训练数据集 DT = (U, A ∪ {d}) 进行,其中 U 是对象的有限集合,由条件属性集 A 和决策属性 d 刻画。每个属性 a ∈ A 可看作函数 a: U → Da Da 是属性 a 的值域。

常见的规则归纳算法有 RIPPER、CN2、AQ 家族以及基于粗糙集理论的算法等。规则不仅用于分类,还用于描述性目的。而规则质量度量在规则归纳和缩减过程中起着关键作用,其目标是使输出的规则集具有高质量,即良好的泛化能力(高分类准确率)和描述能力(输出规则数量少)。

以往的研究大多致力于寻找一种固定的归纳方法,以保证在不同数据集上都能获得较好的分类结果,但效果并不理想。本文提出了一种在规则生长、修剪和过滤过程中自适应选择规则质量度量的方法。

2. 规则质量度量

多数已知的规则质量度量值可通过分析列联表(或 PN 空间)来确定。设 p 为规则 r 覆盖的正例集合, n

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值