Redis面试精讲 Day 6：Bitmap与HyperLogLog实战

原创已于 2025-07-29 09:29:24 修改 · 702 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#Redis #Bitmap #HyperLogLog #基数统计 #面试题 #大数据

于 2025-07-29 08:19:22 首次发布

Redis面试专栏专栏收录该内容

12 篇文章

订阅专栏

【Redis面试精讲 Day 6】Bitmap与HyperLogLog实战

开篇

欢迎来到"Redis面试精讲"系列的第6天！今天我们将深入探讨Redis中两个高级数据结构：Bitmap（位图）和HyperLogLog（基数统计）。这两种数据结构在大数据处理场景中表现出色，是面试中经常被问到的"加分项"知识点。

据统计，在用户行为分析、实时统计等场景中，合理使用Bitmap可以节省95%以上的存储空间，而HyperLogLog能够在仅用12KB内存的情况下统计上亿级不重复元素。本文将带你：

深入理解Bitmap和HyperLogLog的底层原理
掌握5种典型应用场景的实现方案
分析3种常见错误用法及优化策略
解答高频面试题的答题思路
学习生产环境中的最佳实践案例

概念解析

1. Bitmap（位图）

Bitmap本质上是String类型的扩展，它将字符串值当作一系列二进制位来处理：

特性	说明	优势
存储方式	每个bit位表示一个状态	极致的空间利用率
最大长度	512MB（2^32 bits）	可处理超大规模数据
操作复杂度	O(1)或O(N)	高效位操作

基本命令示例：

SETBIT user:login:20230501 10086 1  # 用户10086在2023-05-01登录
GETBIT user:login:20230501 10086    # 检查是否登录
BITCOUNT user:login:20230501        # 统计当天登录用户数

2. HyperLogLog（基数统计）

HyperLogLog是一种概率数据结构，用于估算集合的基数（不重复元素数量）：

特性	说明	误差率
固定内存	每个HyperLogLog占12KB	与元素数量无关
统计原理	基于调和平均数与哈希	标准误差0.81%
合并能力	支持多HyperLogLog合并	保持相同误差率

基本命令示例：

PFADD uv:page:home user1 user2 user3  # 添加用户到UV集合
PFCOUNT uv:page:home                  # 获取UV估算值
PFMERGE uv:page:total uv:page:home uv:page:detail  # 合并UV数据

原理剖析

Bitmap实现原理

底层存储：

实际存储为SDS（简单动态字符串）
自动扩容机制：当设置超出当前长度的位时自动填充0
存储格式：二进制位数组（bit array）

核心操作：

// Redis源码中的bit操作实现（简化版）
void setbitCommand(client *c) {
robj *o = lookupKeyWrite(c->db,c->argv[1]);
uint64_t bitoffset = getBitOffsetFromArgument(c,c->argv[2]);
int byte = bitoffset >> 3;  // 计算字节位置
int bit = 7 - (bitoffset & 0x7);  // 计算bit位

if (o == NULL) {
o = createObject(OBJ_STRING,sdsnewlen(NULL, byte+1));
dbAdd(c->db,c->argv[1],o);
}

unsigned char *p = (unsigned char*)o->ptr + byte;
int oldbit = (*p >> bit) & 1;
*p ^= (1 << bit);  // 设置bit位
}

内存计算：

存储N位Bitmap需要⌈N/8⌉字节
示例：记录1000万用户的登录状态仅需1.19MB

HyperLogLog实现原理

基数估算算法：

使用16384（2^14）个6bit寄存器
对元素做64位哈希，前14位用于选择寄存器
后50位中前导0的数量+1作为寄存器值

误差控制：

小范围修正：当计数值较小时使用线性计数
大范围修正：应用调和平均数公式

合并操作：

// Redis源码中的PFMERGE实现（简化版）
void hllMerge(uint8_t *max, robj *hll) {
uint8_t val;
for (int j = 0; j < HLL_REGISTERS; j++) {
HLL_GET_REGISTER(val,hll->ptr,j);
if (val > max[j]) max[j] = val;
}
}

代码实现

1. Bitmap实现用户签到系统

Java实现：

public class UserSignService {
private Jedis jedis;
private static final String SIGN_KEY_PREFIX = "user:sign:";

// 用户签到
public boolean sign(int userId, LocalDate date) {
String key = SIGN_KEY_PREFIX + userId + ":" + date.getYear();
long offset = date.getDayOfYear() - 1;
return jedis.setbit(key, offset, true);
}

// 检查签到状态
public boolean checkSign(int userId, LocalDate date) {
String key = SIGN_KEY_PREFIX + userId + ":" + date.getYear();
long offset = date.getDayOfYear() - 1;
return jedis.getbit(key, offset);
}

// 统计连续签到天数
public int countContinuousSign(int userId, LocalDate date) {
String key = SIGN_KEY_PREFIX + userId + ":" + date.getYear();
long offset = date.getDayOfYear() - 1;
byte[] bytes = jedis.get(key.getBytes());

int count = 0;
for (long i = offset; i >= 0; i--) {
int byteIndex = (int) (i / 8);
int bitIndex = (int) (i % 8);
if (byteIndex >= bytes.length) continue;
if ((bytes[byteIndex] & (1 << bitIndex)) == 0) break;
count++;
}
return count;
}
}

2. HyperLogLog实现UV统计

Python实现：

import redis
from datetime import datetime, timedelta

class UVCounter:
def __init__(self, host='localhost', port=6379):
self.r = redis.Redis(host=host, port=port)

def add_visit(self, page_id, user_id, date=None):
if not date:
date = datetime.now()
key = f"uv:{page_id}:{date.strftime('%Y%m%d')}"
self.r.pfadd(key, user_id)

def get_uv(self, page_id, date):
key = f"uv:{page_id}:{date.strftime('%Y%m%d')}"
return self.r.pfcount(key)

def get_weekly_uv(self, page_id, end_date=None):
if not end_date:
end_date = datetime.now()
keys = [f"uv:{page_id}:{(end_date - timedelta(days=i)).strftime('%Y%m%d')}"
for i in range(7)]
temp_key = f"uv:{page_id}:weekly:{end_date.strftime('%Y%m%d')}"
self.r.pfmerge(temp_key, *keys)
count = self.r.pfcount(temp_key)
self.r.delete(temp_key)
return count

面试题解析

1. Bitmap和Set都能记录用户状态，如何选择？

对比分析：

维度	Bitmap	Set
存储空间	极省（1.19MB/1000万用户）	较大(取决于元素数量和大小)
查询效率	O(1)	O(1)
批量操作	支持BITCOUNT等高效操作	支持SINTER等集合运算
适用场景	用户ID连续或可映射为整数	用户ID为任意字符串

选择建议：

用户ID是数字且范围集中 → Bitmap
需要精确计算交集/并集 → Set
超大规模用户状态记录 → Bitmap
需要存储额外信息 → Set + Hash

2. HyperLogLog为什么能在12KB内统计上亿数据？

标准答案结构：

概率算法原理（不存储实际元素）
哈希分桶与调和平均数
小范围修正机制
标准误差0.81%的业务可接受性

示例回答：
“HyperLogLog通过哈希函数将元素均匀分布到多个桶中，每个桶只记录该桶内元素哈希值前导0的最大数量。基于概率统计理论，使用调和平均数估算基数。16384个6bit桶共占12KB内存，通过数学修正保证误差率在0.81%以内，这种以精度换空间的策略非常适合大数据量场景。”

3. 如何用Redis实现DAU统计？

解决方案：

方案一：Bitmap（用户ID为数字）

# 每日一个Bitmap
SETBIT dau:20230501 10086 1
BITCOUNT dau:20230501

方案二：Set（用户ID为字符串）

SADD dau:20230501 user123
SCARD dau:20230501

方案三：HyperLogLog（允许误差）

PFADD dau:20230501 user123
PFCOUNT dau:20230501

选择建议：

精确统计且用户量小 → Set
用户量大且ID可数字化 → Bitmap
海量数据可接受误差 → HyperLogLog

实践案例

案例1：电商平台用户行为分析

需求：

实时统计每日活跃用户(DAU)
分析用户行为路径转化率
识别高频访问用户

解决方案：

class UserBehaviorAnalyzer:
def __init__(self, redis_conn):
self.rc = redis_conn

def record_behavior(self, user_id, behavior, date=None):
date = date or datetime.now().strftime('%Y%m%d')
# 记录行为发生
self.rc.setbit(f"behavior:{behavior}:{date}", user_id, 1)
# 记录用户活跃
self.rc.setbit(f"active:{date}", user_id, 1)

def calculate_conversion(self, from_behavior, to_behavior, date):
# 计算行为转化率
temp_key = f"temp:{from_behavior}:{to_behavior}:{date}"
self.rc.bitop('AND', temp_key,
f"behavior:{from_behavior}:{date}",
f"behavior:{to_behavior}:{date}")
converted = self.rc.bitcount(temp_key)
total = self.rc.bitcount(f"behavior:{from_behavior}:{date}")
self.rc.delete(temp_key)
return converted / total if total > 0 else 0

def get_frequent_users(self, threshold=10, period=30):
# 获取高频用户(30天内活跃超过threshold天)
today = datetime.now()
keys = [f"active:{(today - timedelta(days=i)).strftime('%Y%m%d')}"
for i in range(period)]
temp_key = "temp:frequent_users"
self.rc.bitop('OR', temp_key, *keys)

frequent_users = []
for i in range(8 * 1024 * 1024):  # 假设最大用户ID为8M
if self.rc.getbit(temp_key, i):
count = sum(1 for key in keys if self.rc.getbit(key, i))
if count >= threshold:
frequent_users.append(i)

self.rc.delete(temp_key)
return frequent_users

面试答题模板

问题：如何选择Bitmap、Set和HyperLogLog？

回答框架：

数据特性：

用户ID是否为数字及分布范围
是否需要精确统计或允许误差
数据规模与增长预期

功能需求：

是否需要集合运算（并集/交集）
是否需要额外存储关联信息
查询模式（单查/批量/统计）

资源限制：

内存使用敏感度
计算性能要求
网络带宽考虑

典型选择：

精确去重小数据 → Set
数字ID状态记录 → Bitmap
海量数据基数估算 → HyperLogLog

技术对比

Redis基数统计方案对比：

方案	精确性	内存占用	时间复杂度	支持操作
Set	100%精确	O(N)	O(1)添加 O(N)统计	所有集合操作
Bitmap	100%精确	O(maxID)	O(1)	位操作
HyperLogLog	误差0.81%	12KB固定	O(1)	仅基数估算

总结

核心知识点回顾

Bitmap是极致空间效率的布尔型状态记录方案
HyperLogLog以固定内存实现海量基数估算
SETBIT/GETBIT/BITOP是Bitmap核心操作
PFADD/PFCOUNT/PFMERGE是HyperLogLog三要素
根据业务场景选择合适的数据结构

面试官喜欢的回答要点

清楚区分三种结构的适用场景
能准确说明内存占用计算方式
了解底层实现的基本原理
有实际生产环境的使用经验
能权衡精度与性能的关系

明日预告

【Redis面试精讲 Day 7】GEO地理位置应用详解。我们将深入探讨：

GEOADD/GEORADIUS等地理操作
地理位置索引实现原理
附近的人、电子围栏等场景实现
性能优化与常见问题解决

进阶学习资源

文章标签：Redis,Bitmap,HyperLogLog,基数统计,面试题,大数据

文章简述：本文是"Redis面试精讲"系列的第6篇，深入解析Redis中Bitmap和HyperLogLog两种高级数据结构。从底层实现原理到生产环境应用，详细讲解了用户签到系统、UV统计等典型场景的实现方案，对比分析了Bitmap、Set和HyperLogLog的优缺点，提供了5个高频面试题的详细解答和标准答题模板。通过本文，读者可以掌握这两种高效数据结构的使用技巧，在面试和工作场景中做出合理的技术选型。