HyperLogLog原理及Redis实现分析

最新推荐文章于 2025-10-23 23:49:19 发布

原创

最新推荐文章于 2025-10-23 23:49:19 发布 · 825 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#java #编程语言 #程序人生 #架构 #架构师

本文深入探讨了HyperLogLog算法，一种在大数据量下统计基数的高效算法，标准误差约为0.81%。文章从线性计数、对数计数到超对数计数的演进过程进行讲解，并详细分析了Redis中HyperLogLog的实现，包括其稀疏和密集编码方式。实验表明，HyperLogLog在内存占用上优于Bitmap和HashMap，但在实际使用中，由于PFADD命令的判定机制，可能导致较大的基数估计误差。文章提醒在特定业务场景下合理选择和使用数据结构。

在某次需求实现时，面临的业务场景是对千万级的用户id做去重。Set、HashMap等常用的数据结构都能处理这种情况，但是这些数据结构也面临这样的问题：随着数据量的增多，占用的内存空间会越来越大。

出于对人力成本和内存资源消耗的考虑，最终我们选用了HyperLogLog来完成这一任务。

什么是HyperLogLog？一个(有限)集合里不同的元素个数就称为该集合的基数(cardinality)，HyperLogLog是一种在大数据量下统计基数的算法，标准误差为0.81%。相较于其它算法，HyperLogLog的一个明显优势就是仅需要12KB内存，就可以对大数据量级的数据进行基数统计。

在确定了0.81%的误差可接受之后，我们用pfadd的结果来判断用户id是否为重复id进行去重，预期是将误差控制在官方所说的0.81%左右。但结果却与预期的大相径庭，千万的用户id集合经过这样的去重过程，其中90%以上的id都被误判为重复id。为什么会产生如此大的差异呢？本文将从基数统计算法演进的过程出发，带大家了解HyperLogLog的算法原理，并向大家介绍Redis中HyperLogLog的具体实现，最后将通过一系列的实验去探讨这一问题的成因。

1. 基数统计算法演进

1.1 线性计数算法(Linear Counting)

线性计数算法是由Whang等人在1990年提出的算法，它整体的算法流程是：

HyperLogLog原理及Redis实现分析