Kafka 延时队列&重试队列

原创

已于 2022-07-13 13:36:13 修改 · 963 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#kafka #java #分布式

于 2022-07-13 13:31:30 首次发布

本文详细介绍了Kafka的延时队列实现，包括时间轮、延迟生产和延迟拉取的原理及流程。延时队列通过尝试完成和超时完成两种方式确保操作的正确执行。此外，文章指出Kafka本身不支持内置的重试机制，用户需要自行实现，通常涉及创建重试主题、存储和定时消费重试消息等步骤。

一、延时队列

1. 简介

TimingWheel是kafka时间轮的实现，内部包含了⼀个TimerTaskList数组，每个数组包含了⼀些链表组成的TimerTaskEntry事件，每个TimerTaskList表示时间轮的某⼀格，这⼀格的时间跨度为tickMs，同⼀个TimerTaskList中的事件都是相差在⼀个tickMs跨度内的，整个时间轮的时间跨度为interval = tickMs * wheelSize，该时间轮能处理的时间范围在cuurentTime到currentTime + interval之间的事件。

当添加⼀个时间他的超时时间⼤于整个时间轮的跨度时， expiration >= currentTime + interval，则会将该事件向上级传递，上级的tickMs是下级的interval，传递直到某⼀个时间轮满⾜expiration < currentTime + interval，

然后计算对应位于哪⼀格，然后将事件放进去，重新设置超时时间，然后放进jdk延迟队列

else if (expiration < currentTime + interval) {
    // Put in its own bucket
    val virtualId = expiration / tickMs 
    val bucket = buckets((virtualId % wheelSize.toLong).toInt) 
    bucket.add(timerTaskEntry)
    // Set the bucket expiration time
    if (bucket.setExpiration(virtualId * tickMs)) {
        // The bucket needs to be enqueued because it was an expired bucket
        // We only need to enqueue the bucket when its expiration time has changed, i.e. the wheel has advanced
        // and the previous buckets gets reused; further calls to set the expiration within the same wheel cycle
        // will pass in the same value and hence return false, thus the bucket with the same expiration will not
        // be enqueued multiple times.
        queue.offer(bucket)
    }

SystemTimer会取出queue中的TimerTaskList，根据expiration将currentTime往前推进，然后把⾥⾯所有的事件重新放进时间轮中，因为ct推进了，所以有些事件会在第0格，表示到期了，直接返回。

else if (expiration < currentTime + tickMs) {

然后将任务提交到java线程池中处理。

服务端在处理客户端的请求，针对不同的请求，可能不会⽴即返回响应结果给客户端。在处理这类请求时，服务端会为这类请求创建延迟操作对象放⼊延迟缓存队列中。延迟缓存的数据结构类似MAP，延迟操作对象从延迟缓存队列中完成并移除有两种⽅式：

延迟操作对应的外部事件发⽣时，外部事件会尝试完成延迟缓存中的延迟操作。
如果外部事件仍然没有完成延迟操作，超时时间达到后，会强制完成延迟的操作。

2. 延时操作接口

DelayedOperation 接⼝表示延迟的操作对象。此接⼝的实现类包括延迟加⼊，延迟⼼跳，延迟⽣产，延迟拉取。延迟接⼝相关的⽅法：

tryComplete ：尝试完成，外部事件发⽣时会尝试完成延迟的操作。该⽅法返回值为true，表示可以完成延迟操作，会调⽤强制完成的⽅法（ forceComplete ）。返回值为false，表示不可以完成延迟操作。
forceComplete ：强制完成，两个地⽅调⽤，尝试完成⽅法（ tryComplete

最低0.47元/天解锁文章