大数据关联规则挖掘中比特集压缩技术的优势
1. 引言
当今世界正处于数据爆炸的时代,人类能够生成和存储的数据量远超以往想象。存储技术成本降低,数据来源广泛,如物联网传感器、交易记录、搜索引擎和社交网络等。然而,处理这些数据并从中提取有价值的信息一直是个挑战,大数据的“三高”特性(Volume、Variety、Velocity)导致可用数据与处理能力之间存在差距。
从大量数据中提取内在模式是许多大数据分析任务的重要组成部分,其中从交易数据集中提取关联规则是一项有趣的分析任务。关联规则挖掘可用于市场篮子分析、优化店铺布局和商品目录结构等,且不限于商业交易,适用于各种交易数据集。
提取关联规则的常用方法是先发现频繁项集,即出现频率达到或超过特定最小支持度阈值的项集。随着大数据的兴起,数据挖掘算法的性能优化成为研究热点。本文聚焦于通过对底层构建块进行优化来提升频繁模式挖掘任务的性能,具体分析了几种流行的稀疏集压缩算法在真实和合成大数据集上的性能、能耗和内存使用情况。
2. 相关工作
已有多种发现频繁模式的算法,如Apriori、FPGrowth和ECLAT。Apriori通过迭代生成候选项集并剪枝;FPGrowth构建树结构递归提取频繁项集;ECLAT使用数据集的垂直表示,可从比特集压缩技术中显著受益。
研究人员提出了多种比特集压缩技术,EWAH和CONCISE基于游程编码(RLE)压缩稀疏部分;Roaring和BitMagic采用基于容器的压缩方法。也有研究尝试通过比特集压缩加速ECLAT算法,但有必要全面比较不同压缩技术在不同条件下的性能和资源需求。
3. 频繁模式挖掘
频繁模
超级会员免费看
订阅专栏 解锁全文
6

被折叠的 条评论
为什么被折叠?



