Kafka 从 0.11 版本开始引入了事务支持。事务可以保证 Kafka 在 Exactly Once 语义的基础上,生产和消费可以跨分区和会话,要么全部成功,要么全部失败。
Producer 事务
为了实现跨分区跨会话的事务,需要引入一个全局唯一的TransactionID,并将 Producer获得的PID 和Transaction ID 绑定。这样当Producer 重启后就可以通过正在进行的 TransactionID 获得原来的 PID。
为了管理 Transaction,Kafka 引入了一个新的组件 Transaction Coordinator。Producer 就是通过和 Transaction Coordinator 交互获得 Transaction ID 对应的任务状态。TransactionCoordinator 还负责将事务所有写入 Kafka 的一个内部 Topic,这样即使整个服务重启,由于事务状态得到保存,进行中的事务状态可以得到恢复,从而继续进行。
Consumer 事务
上述事务机制主要是从 Producer 方面考虑,对于 Consumer 而言,事务的保证就会相对较弱,尤其时无法保证 Commit 的信息被精确消费。这是由于 Consumer 可以通过 offset 访问任意信息,而且不同的 Segment File 生命周期不同,同一事务的消息可能会出现重启后被删除的情况。
注:
Exactly Once = At Least Once + 幂等性;
At Least Once 可以保证数据不丢失,但是不能保证数据不重复;
生产者Exactly Once (精准一次性)无法保证跨分区跨会话;
开启幂等性的 Producer 在初始化的时候会被分配一个 PID,发往同一Partition 的消息会附带 Sequence Number。而Broker 端会对<PID,Partition, SeqNumber>做缓存,当具有相同主键的消息提交时,Broker 只会持久化一条。
Exactly Once 详情参见 kafka生产者 博客。
4621

被折叠的 条评论
为什么被折叠?



