频繁模式挖掘算法综述
1. 垂直表示与垂直挖掘算法
在频繁模式挖掘中,垂直表示是一种重要的技术。垂直表示将事务数据库表示为倒排列表,即对于每个事务标识符,都有一个包含其中项目的列表,这个列表被称为事务集(tidset)或事务列表(tidlist)。例如,下面的表格展示了事务的垂直表示:
| 项目 | 事务列表 |
| — | — |
| a | 1, 2, 3, 5 |
| b | 1, 2, 4, 5 |
| c | 1, 2, 5 |
| d | 1, 2, 5 |
| e | 1, 4, 5 |
| f | 2, 3, 4 |
| g | 3, 4 |
| h | 2, 5 |
垂直模式挖掘算法利用事务数据库的垂直表示来实现更高效的计数。其核心思想是,k - 模式的支持度可以通过底层事务列表的交集来计算,主要有两种方式:
- k 路集交集 :k - 项目集的支持度可以计算为各个项目列表的 k 路集交集。
- 两个 (k - 1) - 项目集的交集 :k - 项目集的支持度可以计算为连接到该 k - 项目集的两个 (k - 1) - 项目集的事务列表的交集,这种方法更高效。
并非所有垂直模式挖掘算法都使用枚举树的概念来描述算法。许多算法直接使用连接操作从频繁 k - 模式生成 (k + 1) - 候选模式,不过像 Apriori 这样基于连接的算法也可以用枚举树来解释。许多垂直方法的后期变体使用枚举树的概念更仔细地探索项目集的格结构,以充分发挥垂直方法的优势。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



