初识Kafka——深入理解Kafka核心设计与原理实践读书笔记(1)

Kafka:由LinkedIn公司采用Scala语言开发的一个多分区,多副本,基于ZooKeeper协调的分布式消息系统,现已被捐献给Apache基金会。
Kafka的角色:消息系统(消息中间件)、存储系统(提供消息持久化功能)、流式处理平台(提供了流式处理类库)。

Kafka体系架构:由若干Producer、若干Broker、若干Consumer、以及一个ZooKeeper集群构成。
Producer:生产消息并发送至Broker。
Broker:将收到的消息存储到磁盘中。
Consumer:订阅并消费消息。
ZooKeeper:管理集群元数据、控制器选举。

Kafka消息结构:由主题和分区构成。
主题:消息以主题为单位进行归类,可分为多个分区,同一主题下的不同分区包含的消息是不同的。
分区:分区在存储层可看作是一个可追加的日志文件,消息在被追加到分区日志的时候会分配一个特定的偏移量(offset),offset是消息在分区中的唯一标识,也是消息在分区内顺序性的保证。由于offset不跨分区,故Kafka保证的是分区有序而不是主题有序。一个分区有多个副本,以提升容灾能力。
多副本机制(Replica):一个分区有多个副本,多个副本间存储的是一致(最终一致性)的消息,副本间的关系是一主多从,leader节点负责处理读写请求,follower负责与leader之间的消息同步(存在一定的消息滞后)。副本处于不同的broker中,当leader故障时,可从follower中选举出新的leader来对外提供服务。

Kakfa的消费模式:拉(pull)模式,Consumer保存消费的具体位置,当消费者宕机后恢复上线时可以根据之前保存的offset重新拉取消息,以防止消息丢失。

副本分类
AR(Assigned Replicas):分区中的所有副本称为AR。
ISR(In-Sync Replicas):与leader保持一定程度同步的副本称为ISR。
OSR(Out-of-Sync Replicas):与leader副本滞后太多的副本称为,AR=ISR+OSR,正常情况下OSR为空。
follower的滞后状态是由leader来维护的,即由leader来判定每个follower是属于ISR还是OSR。
只有ISR中的副本可在leader节点故障时被选为新的leader。

HW(High Watermark):高水位,标识一个特定的消息偏移量,消费者只能拉取到这个offset之前的消息。
LEO(Log End Offset):标识当前日志文件中下一条待写入消息的offset。分区ISR集合中的每个副本都会维护自身的LEO,这些LEO中的最小值即为该分区的HW,Consumer只能消费HW之前的消息。
Kafka的复制机制:既不是完全的同步复制(数据从leader复制到所有follower才成功),也不是单纯的异步复制(数据写入leader就成功)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值