Kafka知识整理

基本概念

Kafka主要扮演三大角色:

  • 消息系统:Kafka和传统的消息中间件一样,具备解耦、冗余存储、流量削峰、缓冲、异步通信、拓展性、可恢复性等功能。Kafka还提供了独特的消息顺序性回消息回溯功能。
  • 存储系统:Kafka把消息持久化到磁盘,相对其他基于内存的系统而言,丢失数据的风险更低。
  • 流式处理平台:Kafka提供了一个完整的流失处理类库,比如窗口、连接、变换和聚合等各类操作。

结构

 

一个典型的Kafka体系结构包括Producer、Broker、Consumer和Zookeeper集群。

Producer:生产者,也就是发送消息的一方。生产者负责创建消息 然后将其投递到Kafka中。

Consumer:消费者,也就是消息接收方。消费者连接到Kafka上并接收消息,进而进行相应的业务逻辑处理。

Broker:服务代理节点,接收Producer发送的消息,Consumer来Broker拉取消息。

Zookeeper:负责集群元数据的管理、控制器的选举操作。

主题&分区

Kafka中与消息相关的最重要的两个概念:主题(Topic)和分区(Partition)。Kafka中的消息以主题为单位进行归类,生产者负责将消息发送到特定的主题,消费者负责订阅主题进行消费。

 

一个主题可以有多个分区,一个分区只属于单个主题。分区在存储层面,可以把分区看成一个可追加的日志(Log)文件,消息在被追加到分区的时候,会被分配一个偏移量(offset)。offset是消息在分区中的位移标识,Kafka利用offset实现分区消息消费的顺序性。

 

Kafka为分区引入了副本(Relica)机制,通过增加副本数量提高容灾能力。副本之间是“一主多从”的关系,Leader副本负责处理读写请求,follower副本只负责与leader副本的消息同步。当leader副本所在Broker故障时,会从follower副本中重新选举新的leader副本来处理请求。Kafka自身会尽量把副本均匀分散到各个Broker上,以提高容错性。

分区中的所有副本统称为AR(Assined Relicas)。所有与leader服务保持一定程度同步的副本(包含leader副本)组成ISR(In-Sync Relicas)。与leader副本同步滞后过多的副本组成OSR(Out-sync Relicas)。AR=ISR+OSR。当leader副本发生故障的时候,默认只有ISR里的副本才有资格被选为leader副本。

leader副本负责维护和跟踪ISR集合中所有follower副本的滞后状态,当follower副本落后太多或者失效,就会被从ISR移入到OSR中;如果OSR种的副本追上了leader服务,就会被重新添加会ISR集合。

 

几个比较重要的概念:

HW(High Watermark)高水位线,标识了一个特定的而消息偏移量,消费者只能拉取到这个offset之前的偏移量。

LSO(Log Start Offset)日志的起始偏移量,标识所属日志文件中,第一条消息的ofsset。

LEO(Log End Offset)日志结束偏移量,标识所属日志文件中,下一条待写入的消息的offset。整个ISR中最小的LEO就是整个分区的HW

 

Producer

示例代码

 

原理

ProducerRecord

使用KafkaProducer发送消息,需要把消息封装成ProducerRecord:

ProducerRecord


public class ProducerRecord<K, V> {

    private final String topic; // 主题

    private final Integer partition // 分区号

    private nal Headers headers; // 消息头部

    private final K key; // 键

    private final V value; // 值

    private final Long timestamp ; // 消息的时间戳

    ......

}

topic字段代表消息要发送的主题。

partition字段代表消息要发往的分区。

headers字段是消息头部,可以用来设定一些与应用相关的信息。

key字段可以用来计算分区号,让相同key的消息进入同一个分区——以此来支持顺序消费场景;有key的消息还支持日志压缩的功能。

value字段就是真正的消息内容了,一般不为空,但不是绝对,例如“墓碑消息”。

timestamp字段是指消息的时间戳,它有CreateTime——消息创建的时间和LogAppendTime——消息追加到日志的时间两种类型。

KafkaProducer

使用KafkaProducer发送消息,KafkaProducer是线程安全的,可以放心复用。整体的架构图如下:

 

主线程

在主线程中,由KafkaProducer创建消息,然后通过拦截器、序列化器、分区器的作用后缓存到消息累加器中。

消息累加器RecordAccumulator

用来缓存数据ÿ

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值