Apriori算法中使用Hash树进行支持度计数
为什么使用Hash树来进行支持度计数
Hash树进行支持度计数的一个应用实例
建立一棵Hash树
对一个事务来说,其可能的子项集
使用Hash树进行支持度计数
为什么使用Hash树来进行支持度计数
在Apriori算法中,当查看一个候选集是否是频繁项集,需要将该候选集与DB中的每个事务进行比较,如果该候选集在这个事务中出现了,就将其支持度加1。当DB中有5个事务,而候选项集为3个的时候,其总的比较次数就是3×5=15次。
为了减少比较的次数,通过以Hash树的结构来存储候选集,每一个事务不再和每个候选集进行比较,而是和Hash树中特定的候选集进行比较。我们通过下面的一个例子来理解。
Hash树进行支持度计数的一个应用实例
假设我们已经有了候选三项集(共15个),候选集如下所示:
建立一棵Hash树
针对这个候选集,我们