在线学习分类系统挖掘有趣关联规则
1. 引言
关联规则挖掘旨在从无标签数据仓库中提取属性间有趣的关联。早期研究主要聚焦于从二进制数据中提取规则,如“若项目 X 出现,则项目 Y 也会出现”。后来,研究者开始关注从连续属性数据中提取关联规则,这带来了新挑战。一些算法采用离散化方法将连续数据转换为二进制值,也有采用聚类机制或遗传算法等不同策略。
关联规则在电信网络、市场和风险管理、库存控制等领域广泛应用,这些应用的特点是在线生成数据,以流的形式提供。然而,现有的关联规则挖掘算法大多是为静态数据集设计的,在线二进制关联规则挖掘的研究较少,且多数只能处理分类属性问题。
为解决从示例流中在线挖掘关联规则的问题,我们提出了分类器系统 CSar。它受 XCS 和 UCS 的启发,使用基于区间的表示方法处理连续属性数据,使用离散表示处理分类属性数据。CSar 接收无标签示例流,用于创建新规则和调整现有规则的参数,以演化出尽可能多的有趣规则。
2. 关联规则基础概念
2.1 关联规则挖掘
关联规则挖掘最初是针对二进制数据定义的。设 (I = {i_1, i_2, \ldots, i_{\ell}}) 是一组称为项目的二进制属性,(T) 是一组事务,每个事务 (t) 表示为长度为 (\ell) 的二进制向量。项目集 (X\subseteq I) 的支持度 (supp(X)) 计算如下:
[supp(X) = \frac{|X(T)|}{|T|}]
其中,(|X(T)|) 是数据库中包含项目集 (X) 的事务数量,(|T|) 是数据库中的事务总数。若项目集的支持度大于用户设定的阈值(通常称为 (minsupp)),
超级会员免费看
订阅专栏 解锁全文
1130

被折叠的 条评论
为什么被折叠?



