Redis入门（八）-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_38633763/article/details/143970811

Redis基数统计（HyperLogLog）

简介

Redis 的 HyperLogLog 是一种用于基数估计（即集合中不同元素的数量）的概率数据结构。这种数据结构特别适合于处理大规模数据集，因为它能够在非常低的内存占用下提供基数的近似值，同时保持较高的准确性。

基本特性

低内存占用：即使要统计数亿条记录的基数，HyperLogLog 也只需要大约 12 KB 的内存。
固定空间大小：无论添加多少个元素到 HyperLogLog 中，它所占用的空间都是固定的。
可合并性：多个 HyperLogLog 可以合并成一个新的 HyperLogLog，这使得它在分布式环境中的基数估计变得可能。
概率算法：HyperLogLog 是基于概率的估算，因此结果不是绝对精确的，但通常误差范围可以控制在 0.81% 左右。

主要操作命令

1.PFADD - 向 HyperLogLog 添加一个或多个元素。

PFADD key element [element ...]

如果至少有一个元素被成功添加到 HyperLogLog 中，返回 1；如果没有新的元素被添加，则返回 0。

2.PFCOUNT - 返回给定 HyperLogLog 的近似基数。

PFCOUNT key [key ...]

3.PFMERGE - 将一个或多个 HyperLogLog 合并到指定的目标键中。

PFMERGE destkey sourcekey [sourcekey ...]

示例

假设我们想要统计网站每天的独立访客数量，可以使用如下命令：

1.添加访客ID到HyperLogLog：

PFADD visitors user1
PFADD visitors user2
PFADD visitors user3
PFADD visitors user1  # 重复添加同一个用户ID，不会影响基数

2.查询独立访客数：

PFCOUNT visitors

3.合并两天的独立访客数据：

PFMERGE combined_visitors visitors_day1 visitors_day2

4.查询合并后的独立访客数：

PFCOUNT combined_visitors

通过上述命令，Redis HyperLogLog 能够以非常高效的方式帮助我们处理大数据量的基数统计问题。

使用场景

网站独立访客数：统计每天访问网站的不同用户数量。

广告点击分析：统计某个广告被不同用户点击的次数。

日志分析：统计日志文件中不同 IP 地址的数量。

实时数据分析：在流式数据处理中，快速估算唯一值的数量。