3)kafka 集群管理消费者信息和消费者消费记录,这些信息也以内部 topic 形式存储;
4)Kafka Broker 结构。
二、Broker 结构
===========
1)
2)每个 borker 进程,都包含各个管理器,如 socketServer 网络处理,replicaManager 副本管理器,kafkaController 集群管理器,groupCoordinator 消息者数据管理器,LogManager 日志数据管理器,kafkaScheduler 定时器,zkClient 与 zookeeper 通信管理器,transactionCoordinator 事务协调器。
三、通信框架
======
1)
2)socketserver 会启动一个 acceptor 线程,用于接收和创建新 socket,并轮询安排给 processor thread 来处理后续的数据 io;
3)processor 接收到数据后包装成 request 请求放入单个 requestQueue 队列,并有多个 io 逻辑处理 thread 从 requestQueue 中取 request 处理;
4)根据 request 类型调用 kafkaapi 完成处理;
5)
6)处理完请求后,封装成 reponse,根据 ProcessorID 放入对应的 responseQueue 由对应的 processor 线程完成回复。
四、log 结构
========
1)Topic、partition 和 replica 关系
2)
3)每个 topic 有很多个 partition 组成,由 key hash 值分配到不同的 partition,每个 partition 拥有多个副本 replica 做主从,确保数据的安全性。
4)每个 partition 或者 replica 由 log 存储数据,log 由 logsegment 组成,每个 logsegment 由索引文件和数据文件组成。
5)
6)
7)现在 Log 中需要查找获取一条消息时,会根据偏移首先定位到处于哪个 logsegment 文件,再根据索引文件定位,Logsegment 是由跳跃表组成的,便于搜索,再从数据文件读取消息;
8)
9)索引文件由 K,V 组成,K 是相对文件中第几条消息,V 是文件中的绝对位置,索引文件可以用来做二分查找,从索引文件中找到位置之后,再从数据文件中顺序查找,具体那条消息数据,为了避免索引文件太大,会相隔一定字节才写入一条索引;
10)每个 partition 会有多个 replica 进行同步,一个 Leader 多个 follower,这些副本主从地位是由 leader controller 负责处理,只有 leader replica 才能处理请求,其它 follower 同步数据。
五、Controller
============
1)每个 broker 都拥有一个 kafkacontroller,controller 主要负责管理整个集群,但是每个集群中都只有一个 leader controller 有资格来管理集群;
2)Leader controller 是借助 zookeeper 来选择的,每个 controller 初始化时都会向 zookeeper 注册竞争成为 leader 的路径的监听,第一个成功写入 zookeeper 的 controller 将会成为 leader,其它 controller 就会收到新 leader 的通知,将自己设为 follower;
3)当 controller 成为 leader 时,会向 zookeeper 注册相关监听; 4)
5)这些监听集群数据状态的变化,如 增加 topic partition replica 等,当监听到数据发生变化,leaderController 就会得到通知并处理,处理完成后会同步相关数据给其它 followerController;
6)controller 是以单工作线程形式运行的,其它请求通过封装为 job 投递到 controller 处理线程; 7)
8)borker 上下线、副本增加重分配、topic 增加等,通过 zookeeper 通知并创建 job 投入 job 队列等待工作线程处理;
9)集群所有的元数据是存放在 zookeeper 上,当 zookeeper 数据发生变化时,通过通知到 leaderController,controller 处理数据,并在内存中保存一份副本,做差值处理。
六、replica 管理
============
1)所有 partition 都有多个 replica 来管理,这样使数据更安全,不容易丢失;
2)replica 的 leader follower 地位是由 leaderController 来管理的;
3)replica 有三种类型:无效的、已分配的(正在同步但是还没达到一致状态)和在线副本(正常同步的);
4)replica 数据的同步是由 replicaManager 副本管理器来处理的,管理器会开启副本同步线程去 leader replica 抓取数据;
5)replica 下线时,leaderController 会收到 zookeeper 通知后会处理,如果是 leader replica 下线,则会重新选举,根据不同状态用不同选举策略选出新 Leader;
6)选 leader 有可能来自 replica 下线、需要改变 leader 或者为了负载均衡进行重分配。
最后
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数Java工程师,想要提升技能,往往是自己摸索成长,自己不成体系的自学效果低效漫长且无助。
因此收集整理了一份《2024年Java开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Java开发知识点,不论你是刚入门Java开发的新手,还是希望在技术上不断提升的资深开发者,这些资料都将为你打开新的学习之门!
如果你觉得这些内容对你有帮助,需要这份全套学习资料的朋友可以戳我获取!!
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!
开发知识点,不论你是刚入门Java开发的新手,还是希望在技术上不断提升的资深开发者,这些资料都将为你打开新的学习之门!**
如果你觉得这些内容对你有帮助,需要这份全套学习资料的朋友可以戳我获取!!
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!