数据驱动的规则质量度量自适应选择以改进规则归纳算法
1. 引言
知识发现是从数据中提取未知、非平凡且有用模式的过程。规则形式因其简单性,成为了一种流行的模式表示方式,其形式为:
IF a1 ∈ Va1 and ... and ak ∈ Vak THEN d = Vd
规则归纳基于训练数据集 DT = (U, A ∪ {d})
进行,其中 U
是对象的有限集合,由条件属性集 A
和决策属性 d
刻画。每个属性 a ∈ A
可看作函数 a: U → Da
, Da
是属性 a
的值域。
常见的规则归纳算法有 RIPPER、CN2、AQ 家族以及基于粗糙集理论的算法等。规则不仅用于分类,还用于描述性目的。而规则质量度量在规则归纳和缩减过程中起着关键作用,其目标是使输出的规则集具有高质量,即良好的泛化能力(高分类准确率)和描述能力(输出规则数量少)。
以往的研究大多致力于寻找一种固定的归纳方法,以保证在不同数据集上都能获得较好的分类结果,但效果并不理想。本文提出了一种在规则生长、修剪和过滤过程中自适应选择规则质量度量的方法。
2. 规则质量度量
多数已知的规则质量度量值可通过分析列联表(或 PN 空间)来确定。设 p
为规则 r
覆盖的正例集合, n