19、内存与I/O高效的重复检测及Top - K中介模式生成

内存与I/O高效的重复检测及Top - K中介模式生成

内存与I/O高效的重复检测

在数据处理中,重复检测是一个重要的问题。为了开发更高效的内存和I/O算法,以处理多个自清洁数据源的重复检测问题,研究考虑了三种可能的情况,这取决于待清洁数据源的大小和可用内存。

内存内重复检测算法效率

提出了一种内存内高效算法,用于处理所有数据源都能完全加载到内存中的情况。该算法充分利用了待清洁数据源自身无重复的特点,通过减少检测过程中不必要的记录比较,比传统的SNM方法更快。实验中,对两种方法的记录比较结果在每个研究的重叠比率下进行了10次运行的平均。结果表明,所提出的双工作负载内存内清洁方法的成对记录比较数量远少于传统的SNM方法,尤其是在两个清洁工作负载之间存在较高偏度(即较低重叠比率)时,效率优势更明显。

外部内存重复检测算法效率

对于外部内存重复检测算法,研究了重复检测过程中需要加载到内存中的页面总数。只研究了第二种情况,即没有一对清洁工作负载能完全加载到内存中进行处理。因为第三种情况已被证明可以简化为第二种情况,所以未对其进行实验。

在实验中,将所提出的方法与随机访问方法进行了比较。随机访问方法随机选择分配给常驻工作负载分区的内存大小(即Mr)以及流式清洁工作负载加载到内存中的顺序。为了满足第二种情况的条件,将内存M限制为仅能容纳100条记录,并创建了5个大小从200到1000(以200为增量)的清洁工作负载。由于随机访问方法的随机性,在图中展示了随机访问方法5次不同运行的结果,并与所提出的方法进行比较。结果显示,在所有5次运行中,所提出的方法都优于随机访问方法,通过精心优化常驻工作负载分区的大小和流式清洁工作负载的加

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值