41、利用并行 RDB 引擎在 PC 集群上挖掘广义关联规则

julia4scientist

于 2025-10-21 15:32:11 发布

阅读量16

点赞数

CC 4.0 BY-SA版权

分类专栏：数据仓库与知识发现探秘文章标签： TTR-SQL TH-SQL ST-SQL

本文链接：https://blog.youkuaiyun.com/julia4scientist/article/details/154420923

数据仓库与知识发现探秘专栏收录该内容

56 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

利用并行 RDB 引擎在 PC 集群上挖掘广义关联规则

1. TTR - SQL 查询介绍

TTR - SQL 查询利用临时关系来保存各轮次间的交易数据，其命名源于“使用临时关系挖掘分类法”。它与 SETM 算法有相似之处，但 SETM 主要用于精确关联规则挖掘，在处理广义关联规则挖掘时效率较低，因为需要为交易中的每个项目添加所有祖先项。

TTR - SQL 采用了以下优化措施：
1. 修剪分类法 ：去除那些后代不在首轮大项集里的分类法。例如，若在图 1 的分类法中，“Pizza”项目的支持度太低，未被包含在首轮大项集 F1 中，那么可以从分类表中移除 {Pizza, Italian Food}、{Pizza, Food} 和 {Italian Food, Food}。部分实验表明，分类表的大小最多可缩小 100 倍，多轮挖掘能从该优化中获得最大益处。
2. 修剪包含项目及其祖先的候选项集 ：像“寿司 -> 日本食物”这样包含后代和祖先的规则是显然成立的，可以忽略。TTR - SQL 在除首轮外的每一轮执行此优化。首轮会包含分类表中与每个项目后代匹配的所有祖先项。之后使用分类表子集 TAXH 来修剪候选项集，TAXH 仅包含后代在首轮大项集里的条目。

TTR - SQL 的首轮与 ST - SQL 不同，它会生成一个名为 R1 的扩展交易数据表。可以用子查询替代 R1 的生成，以避免物化成本。在其他轮次，生成 k - 项集到 Rk 时会采用第二项优化。执行树如图 7 所示，具体步骤如下：
1. 将与上一轮大项集 Fk - 1 匹配的 k - 1 项集及其交易 ID 包含