6、频繁模式挖掘算法综述

频繁模式挖掘算法综述

1. 垂直表示与垂直挖掘算法

在频繁模式挖掘中,垂直表示是一种重要的技术。垂直表示将事务数据库表示为倒排列表,即对于每个事务标识符,都有一个包含其中项目的列表,这个列表被称为事务集(tidset)或事务列表(tidlist)。例如,下面的表格展示了事务的垂直表示:
| 项目 | 事务列表 |
| — | — |
| a | 1, 2, 3, 5 |
| b | 1, 2, 4, 5 |
| c | 1, 2, 5 |
| d | 1, 2, 5 |
| e | 1, 4, 5 |
| f | 2, 3, 4 |
| g | 3, 4 |
| h | 2, 5 |

垂直模式挖掘算法利用事务数据库的垂直表示来实现更高效的计数。其核心思想是,k - 模式的支持度可以通过底层事务列表的交集来计算,主要有两种方式:
- k 路集交集 :k - 项目集的支持度可以计算为各个项目列表的 k 路集交集。
- 两个 (k - 1) - 项目集的交集 :k - 项目集的支持度可以计算为连接到该 k - 项目集的两个 (k - 1) - 项目集的事务列表的交集,这种方法更高效。

并非所有垂直模式挖掘算法都使用枚举树的概念来描述算法。许多算法直接使用连接操作从频繁 k - 模式生成 (k + 1) - 候选模式,不过像 Apriori 这样基于连接的算法也可以用枚举树来解释。许多垂直方法的后期变体使用枚举树的概念更仔细地探索项目集的格结构,以充分发挥垂直方法的优势。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值