面试官:群聊消息的已读未读功能,你来设计一个?

本文讨论了如何设计企业IM群聊中的已读未读功能,从最初的简单方案(存储readids和unreadids)到使用bitmap优化,通过分析内存和磁盘空间占用,提出了在成员退出和重新加入时的处理策略,并介绍了如何在MySQL和Redis中实现这一方案,以降低存储成本并提高效率。

企业IM比如企业微信、钉钉里面的群消息的有个已读未读的功能,发送者刚发出消息时,当前群里其他群成员都是未读状态,陆陆续续有人看了这个消息,这时候消息的详情变成x人已读,y人未读,如下图所示,有具体的已读未读列表(万恶的功能,看到同事or老板的消息不能假装没看到了),每条消息对应一个唯一的messageid(uint64_t),每个用户对应一个唯一的userid(uint64_t),应该如何保存这个消息对应的已读未读详情呢?

在这里插入图片描述

第一反应就是很简单粗暴的方案

对于每一个messageid,存当前readids + unreadids,当群成员A已读某一条消息时,把A userid从unreadids移除写到readids上就好了,客户端更新到messageid对应的详情列表,就可以展示m人已读,n人未读

显然这么简单粗暴的方案面试官是不会满意的,追问有没有更好的方案呢?
仔细分析,按照目前的设计,每一条消息,已读未读详情就要占用8B * 群成员数的内存,如果一个活跃的200人大群,每发一条消息,已读未读就要1600B,如果平均每天消息量是1k,那每个这样的群,每天就要1.6MB磁盘空间,对于客户端来说,特别是手机端,占用磁盘空间是用户不能接受的,又不能把工作消息删了,对于服务器端来说,用户群体如果特别大,那数据库存

<think>好的,我现在需要帮用户设计群聊系统中未读消息和已消息的方案。首先,用户提到了参考的引用内容,里面有提到扩散和写扩散的模式,还有消息存储模型。我得先理清楚这些概念。 首先,用户的问题是关于群聊的已未读功能,发送者发消息后,群成员显示未读,当有人阅后,状态更新。需要高效存储和查询。根据引用[4],扩散和写扩散的区别在于消息的存储方式。扩散是每个会话保存全量消息,接收端拉取时需要检查每个会话,适合消息量少的情况。而写扩散则是每个用户有自己的消息队列,消息会被复制到每个成员的队列中,适合群聊这种场景,因为可以快速标记已,但存储压力大。 接下来,用户需要具体的设计方案。我需要分步骤来考虑:存储模型、已标记、实时同步、性能优化。 存储模型方面,引用[3]提到消息按会话存储,每个会话有一个Timeline,消息有序排列。可能需要在消息表中记录每条消息的基本信息,比如message_id、group_id、sender_id、content、timestamp等。然后已状态可能需要单独的表,记录用户、消息ID和已状态,比如message_read_status表,包含user_id、message_id、read_time等字段。不过群聊成员可能很多,如果每个消息都记录所有成员的已状态,数据量会爆炸,需要考虑优化。 这时候想到引用[4]中的写扩散,可能更适合群聊。因为每个用户有自己的未读消息队列,当用户取后,只需在自己的队列中标记已,这样更新效率高。但存储成本会增加,因为每个消息要复制到所有成员的队列中。不过对于活跃的群聊来说,这可能更高效。 然后是已标记的同步。当用户消息时,需要更新状态,并通知其他用户。可以考虑使用消息队列或者发布订阅机制,比如Kafka,来实时推送状态变更。这样发送者能及时看到已人数的变化。 性能优化方面,分库分表可能有必要,比如按group_id或user_id分片,减少单表压力。另外,对于大群,比如万人群,逐个记录已状态可能不现实,可以采用位图或者布隆过滤器来压缩存储。例如,每个消息对应一个位图,每一位代表一个用户是否已,这样存储空间节省很多。但位图可能需要预先知道用户数量,或者动态扩展,这需要设计好。 另外,冷热数据分离也很重要。最近的未读消息保持高效访问,而历史数据可以归档,减少实时库的压力。缓存方面,使用Redis存储最近的已状态,加快查询速度。比如用Hash结构存message_id和已用户数,或者用Set存已的用户ID,但要注意缓存和数据库的一致性。 还需要考虑查询已未读列表的效率。如果用户点击消息详情,需要快速列出已未读的用户。这时候如果使用位图,可能需要遍历位图,但效率可能不高。或者维护两个列表,已未读,但更新时需要同时维护这两个列表,可能会复杂一些。或许可以结合数据库和缓存,实时查询时从缓存获取,同时异步更新数据库。 另外,消息的扩散方式会影响设计。写扩散虽然存储成本高,但查询和更新已状态更快,因为每个用户的消息队列独立。而扩散可能需要每次拉取所有会话的消息,但存储成本低。这里需要根据群聊的活跃度和规模来权衡。例如,小群用写扩散,大群用扩散结合位图。 还有,消息的唯一性很重要,每个消息有唯一的message_id,确保在全局不会重复。用户ID也是唯一的,这样在记录已状态时不会有冲突。 最后,需要考虑系统的扩展性和可靠性。比如,分片策略是否允许水平扩展,消息队列的吞吐量是否足够,以及如何处理故障恢复,确保已状态不会丢失。 总结一下,设计方案需要包括存储模型的选择(写扩散或扩散),已状态的存储方式(位图、单独的表),实时同步机制,分库分表和缓存策略,以及针对大群的优化措施如位图压缩。同时,引用中提到的扩散和写扩散的优缺点需要综合考虑,选择适合群聊场景的方案。</think>### 群聊系统未读消息与已消息设计方案 #### 一、核心设计原则 1. **高效存储**:支持高并发写,避免单点瓶颈[^4] 2. **实时同步**:消息状态变更需在秒级内同步到所有客户端 3. **查询优化**:快速响应消息的已未读人数统计和明细查询 4. **可扩展性**:支持万人级大群场景 #### 二、详细设计方案 ##### 1. 存储模型设计 **(1) 消息主表** ```sql CREATE TABLE messages ( message_id BIGINT PRIMARY KEY, -- 全局唯一消息ID group_id BIGINT NOT NULL, -- 群ID sender_id BIGINT NOT NULL, -- 发送者ID content TEXT, -- 消息内容 create_time DATETIME -- 发送时间 ) ``` **(2) 已状态存储(写扩散模式)** 采用BitMap压缩存储,每个消息对应一个BitMap: ```sql CREATE TABLE read_status ( message_id BIGINT PRIMARY KEY, group_id BIGINT NOT NULL, bitmap BLOB, -- 压缩位图(每位代表一个用户) version INT -- 乐观锁版本 ) ``` *示例:1万人群仅需1.25KB存储空间* *优势:空间效率高,支持快速统计已人数*[^4] **(3) 未读队列(写扩散模式)** 每个用户维护未读消息队列: ```python # Redis存储结构样例 user_unread:{ "user:1001": sorted_set( "group:2001": [message_id1, message_id2...], "group:2002": [message_id3, message_id4...] ) } ``` ##### 2. 核心流程实现 **消息发送流程** ```mermaid sequenceDiagram participant 发送者 participant 服务端 participant Redis participant DB 发送者->>服务端: 发送群消息 服务端->>DB: 写入消息主表 服务端->>Redis: 为每个群成员添加未读标记 服务端->>服务端: 生成初始全0位图 DB-->>服务端: 返回消息ID 服务端->>发送者: 返回发送成功 ``` **消息标记流程** ```python def mark_as_read(user_id, message_id): # 原子操作更新位图 execute( "UPDATE read_status SET bitmap = SET_BIT(bitmap, ?, 1) WHERE message_id = ?", user_id, message_id ) # 删除未读队列记录 redis.zrem(f"user_unread:{user_id}", message_id) # 发布状态变更事件 kafka.publish("read_event", {"message_id": message_id, "user_id": user_id}) ``` ##### 3. 性能优化策略 1. **分层存储** - 热数据:Redis存储最近7天未读队列 - 冷数据:MySQL归档三个月前记录 2. **批量处理** ```sql -- 批量标记已 UPDATE read_status SET bitmap = bitmap | b'...' WHERE message_id IN (...) ``` 3. **写分离** - 写操作:主库处理状态变更 - 操作:从库响应统计查询 #### 三、特殊场景处理 1. **新成员入群** - 增量同步:仅同步入群后产生的消息 - 历史消息:通过位图特殊标记"无需阅" 2. **万人群优化** - 分片存储:按user_id范围分片存储位图 - 异步统计:定时任务预计算已人数 3. **消息撤回** - 级联删除:同时清理所有关联状态记录 - 事务补偿:采用Saga模式保证一致性 #### 四、监控指标 1. 状态更新延迟(P99 < 200ms) 2. 未读队列同步成功率(>99.99%) 3. 位图存储压缩率(目标85%+)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值