19、大规模数据库的增量挖掘技术详解

大规模数据库的增量挖掘技术详解

在处理大规模数据库时,传统的数据挖掘方法往往面临着效率低下的问题。为了解决这一难题,增量挖掘技术应运而生。本文将详细介绍增量挖掘技术的原理、流程以及相关的重要概念和方法。

1. 增量挖掘概述

在大规模数据库中,通过采样可以识别近似关联规则,并且基于已发现的近似规则,只需对数据库进行一次遍历就能识别真实的关联规则。然而,这仍然需要扫描数据库中的所有数据,在个人计算机上对超大规模数据库进行挖掘依旧困难重重。为了提高效率,增量挖掘技术基于加权的方式应运而生。

增量挖掘的具体步骤如下:
1. 生成实例集 D :使用采样技术从给定的超大规模数据库 TD 中生成实例集 D,然后使用算法 ApproximatingM 对 D 进行挖掘。
2. 生成增量数据集 D+ :同样利用采样技术从 TD 中生成增量数据集 D+(需注意 D 中的所有事务不会出现在增量数据集中),再用算法 ApproximatingM 对 D+进行挖掘。
3. 规则合成 :通过加权的方式将 D+中挖掘出的规则与 D 中的旧规则进行合成。
4. 更新数据集 :令 D 变为 D ∪ D+,重复步骤 2 和 3,直至处理完 TD 中的所有事务。

2. 重用技术与实例分析

在增量挖掘大规模数据库时,重用技术是关键所在。即保留一些有潜力的项集以便重复使用,因为一些不频繁的项集可能会在后续变为频繁项集。下面通过一个具体例子来详细说明:

假设我们有一个来自

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值