kafka中的offset

最新推荐文章于 2024-12-04 14:41:34 发布

原创最新推荐文章于 2024-12-04 14:41:34 发布 · 2w 阅读

CC 4.0 BY-SA版权

文章标签：

2 篇文章

订阅专栏

本文介绍了Kafka消息系统的架构和核心概念，包括消息传递保障机制、broker的角色、topic的物理分组方式及其与partition、segment、offset之间的关系，并详细解释了如何通过offset定位消息。

官方文档定义：kafka是一个分布式、可分区、多副本的日志系统。

kafka术语：

对于一个消息系统而言，追踪客户消费了什么，也即消息消费状态是每个消息系统必须提供的关键功能之一。
系统可以提供的几种可能消息传递保障有3种：

At most once 消息至多会被发送一次，但如果产生网络延迟等原因消息就会有丢失。
At least once 消息至少会被发送一次，上面既然有消息会丢失，那么给它加一个消息确认机制即可解决，但是消息确认阶段也还会出现同样问题，这样消息就有可能被发送两次。
Exactly once 消息只会被发送一次，这是我们想要的效果。

那么kafka是怎么解决的呢？
kafka的解决方案：

broker将数据流划分为一组互相独立的分区。这些分区的语义由producer定义，由producer指定每条消息属于哪个分区。一个分区内的消息以到达broker的时间为准排序，将来按此顺序将消息发送给consumer。这样一来，就用不着为每一条消息保存一条元数据（比如标记该消息已使用）了，我们只需要为producer、topic、partition的每种组合记录一个“最高水位标记”（high water mark）即可。我们把这个最高水位标记称作偏移量offset。

topic、partition、segment、offset的关系：

partition、segment、offset都是为topic服务的，每个topic可以分为多个partition，一个partition相当于一个大目录，每个partition下面有多个大小相等的segment文件，这个segment是由message组成的，而每一个的segment不一定由大小相等的message组成。segment大小及生命周期在server.properties文件中配置。offset用于定位位于段里的唯一消息。

topic、partition、segment、offset的关系