关联规则挖掘全解析:从 HITS 算法到规则可视化与应用
1. 加权关联规则与 HITS 算法引入
在关联规则挖掘中,新的推荐策略纳入了一些稀有物品,并且对单个交易的利润率较为敏感,这有助于零售商通过交叉销售活动提高盈利能力。加权关联规则挖掘相较于普通关联规则挖掘更具优势,因为生成的规则对交易权重敏感。然而,当交易数据没有预先分配权重时,我们需要一种方法为这些交易赋予重要性。
arules
包提供了 HITS(Hyperlink - induced Topic Search)方法来推断交易权重。HITS 是由 John Kleinberg 开发的用于对网页进行排名的链接分析算法。在图论中,一个图由一组顶点和边组成,有向图中顶点的入度是指指向该顶点的边的数量,出度是指从该顶点发出的边的数量。如果很多页面链接到一个特定页面,该页面被视为权威页面;如果一个页面链接到很多其他页面,它被视为枢纽页面。
2. HITS 算法在关联规则挖掘中的应用
使用 HITS 算法进行关联规则挖掘的基本思想是,频繁出现的物品可能并不像看起来那么重要。该算法将交易和产品视为二分图,若产品出现在交易中,则从交易到产品有一条弧。
在这种表示中,物品的支持度与其度成正比。通过将交易视为枢纽,产品视为权威,算法在这个二分图上调用 HITS 来计算交易权重。
以下是使用 HITS 算法计算交易权重的代码:
library(arules)
get.txn <- function(data.path, columns){
transactions.