数据挖掘与仓库性能优化:并行算法与自主系统的应用
在当今信息爆炸的时代,数据挖掘和数据仓库性能优化变得至关重要。本文将介绍两种不同但相关的技术:并行挖掘高实用项集的方法以及基于本体的自主系统来提升数据仓库性能。
并行挖掘高实用项集
在分布式数据库环境中,挖掘高实用项集(HUIs)是一项具有挑战性的任务。为了解决这个问题,提出了一种并行方法和高效算法。
数据表格与值
首先,有客观值表和主观值表,如下所示:
| | D | E |
| — | — | — |
| T1 | 0 | 1 |
| T2 | 2 | 1 |
| T3 | 0 | 1 |
| T4 | 2 | 1 |
| T5 | 0 | 2 |
| T7 | 2 | 1 |
| T8 | 6 | 1 |
| T10 | 0 | 2 |
同时,每个项目有对应的效益值:
| Item | Benefit |
| — | — |
| D | 3 |
| E | 5 |
DTWU - Mining 算法
由于本地 HUIs 从所有从站点(SlaverSites)挖掘并发送到主站点(MasterSite),主站点仅挖掘其项集至少出现在两个从站点的 HUIs。因此,需要对 TWU - Mining 进行扩展。
- 当从站点向主站点发送信息时,添加第 4 个字段,即指示包含该项的从站点的组。
- 在第 1 层连接 2 个顶点时,仅检查它们是否属于同一组。从第 2 层开始,DTWU - Mini
超级会员免费看
订阅专栏 解锁全文
4925

被折叠的 条评论
为什么被折叠?



