基于客观兴趣度度量聚合的关联规则挖掘
1. 引言
关联挖掘通常会生成大量规则,从平凡规则到高度有趣的规则都有。因此,后处理步骤对于帮助用户找到真正有益的规则至关重要。一种规则后处理方法是使用客观兴趣度度量来评估规则质量。与主观度量不同,客观度量仅依赖于数据,与领域和用户无关。
目前,使用客观度量的常见方法是根据其属性选择一个或多个合适的度量来过滤规则。然而,这些方法分别考虑不同的标准,一个度量下的最佳规则可能在其他度量下并不被高度评价。本文提出了一种新方法,通过聚合一组客观度量来同时考虑不同的观点,使用Choquet积分作为高级聚合算子,以找到最有趣的关联规则。
2. 兴趣度度量与Choquet积分
2.1 关联规则
关联规则是两个不相交项集X和Y之间的隐含趋势,记为X → Y,表示如果X发生,Y很可能也会发生。关联规则从交易数据库中提取,每个交易包含项的子集。一个规则与四个基数相关:总交易数(n)、包含X的交易数(nX)、包含Y的交易数(nY)以及包含X但不包含Y的交易数(nX ¯Y)。
2.2 兴趣度度量
本文仅关注客观兴趣度度量,这种度量仅基于规则的基数来评估规则。具体而言,客观兴趣度度量是四个参数的函数:m(X → Y) = f(n, nX, nY, nX ¯Y)。
这些度量可以根据其主题和性质进行分类:
- 主题 :度量在独立点(X和Y随机独立:nXnY = nnXY)或平衡点(示例和反例数量相等:nXY = nX ¯Y)是否有固定值。
- 性质 :度量是描述性的还
超级会员免费看
订阅专栏 解锁全文
24

被折叠的 条评论
为什么被折叠?



