Bloom Filter在大数据中的应用
1. 引言
随着计算技术的进步,所有信息都以数字形式保存在计算机系统中,这一转变产生了大量的数据。不同领域的数据格式不同,导致生成的复杂数据是非结构化的。因此,大数据包含结构化、非结构化或半结构化数据。然而,大数据面临的一个大问题是,传统的数据处理和分析技术在处理大数据时效率低下。所以,大数据成为了一个新领域,需要高效的数据生成、收集、可视化、处理、分析和存储技术。
大数据最初由三个维度(3V)定义,即数量(Volume)、速度(Velocity)和多样性(Variety)。后来,又增加了新的维度,形成了 11V + C 的概念,其中 11V 包括数量、速度、多样性、准确性、有效性、价值、可视化、可变性、数据所有者、数据容器和虚拟性,3 个数量特征为大量性、空闲内存需求和活跃性,复杂性指处理大数据的复杂程度。
目前数据生成速度极快,预计 2020 年全球生成、收集、复制和消费的总数据量将达到 64.2 泽字节,到 2025 年将达到约 180 泽字节,这一突然增长部分归因于 COVID - 19 大流行期间人们在家工作。在这种情况下,过滤技术需要一种能够高效处理传入数据并保持高精度的数据结构。
布隆过滤器(Bloom Filter)是满足这一需求的简单解决方案。它占用内存少,降低了应用程序的开销,也有助于在多个单元中部署以实现高性能。布隆过滤器的操作时间是常数,能轻松处理高数据传入速度,且错误率低,可保持高精度。下面将介绍布隆过滤器在大数据、数据库和 MapReduce 中的作用。
2. 数据管理
2.1 大数据的定义
大数据的概念最初由 3V 定义,
超级会员免费看
订阅专栏 解锁全文
1178

被折叠的 条评论
为什么被折叠?



