利用并行 RDB 引擎在 PC 集群上挖掘广义关联规则
1. TTR - SQL 查询介绍
TTR - SQL 查询利用临时关系来保存各轮次间的交易数据,其命名源于“使用临时关系挖掘分类法”。它与 SETM 算法有相似之处,但 SETM 主要用于精确关联规则挖掘,在处理广义关联规则挖掘时效率较低,因为需要为交易中的每个项目添加所有祖先项。
TTR - SQL 采用了以下优化措施:
1. 修剪分类法 :去除那些后代不在首轮大项集里的分类法。例如,若在图 1 的分类法中,“Pizza”项目的支持度太低,未被包含在首轮大项集 F1 中,那么可以从分类表中移除 {Pizza, Italian Food}、{Pizza, Food} 和 {Italian Food, Food}。部分实验表明,分类表的大小最多可缩小 100 倍,多轮挖掘能从该优化中获得最大益处。
2. 修剪包含项目及其祖先的候选项集 :像“寿司 -> 日本食物”这样包含后代和祖先的规则是显然成立的,可以忽略。TTR - SQL 在除首轮外的每一轮执行此优化。首轮会包含分类表中与每个项目后代匹配的所有祖先项。之后使用分类表子集 TAXH 来修剪候选项集,TAXH 仅包含后代在首轮大项集里的条目。
TTR - SQL 的首轮与 ST - SQL 不同,它会生成一个名为 R1 的扩展交易数据表。可以用子查询替代 R1 的生成,以避免物化成本。在其他轮次,生成 k - 项集到 Rk 时会采用第二项优化。执行树如图 7 所示,具体步骤如下:
1. 将与上一轮大项集 Fk - 1 匹配的 k - 1 项集及其交易 ID 包含
超级会员免费看
订阅专栏 解锁全文
676

被折叠的 条评论
为什么被折叠?



