Kafka简介

最新推荐文章于 2024-04-30 14:33:50 发布

翻译最新推荐文章于 2024-04-30 14:33:50 发布 · 170 阅读

kafka 专栏收录该内容

1 篇文章

订阅专栏

简介

Apache Kafka®是一个分布式流平台。这究竟是什么意思？
流平台有三个关键能力：

发布和订阅记录流，类似于消息队列或企业消息系统。
以容错稳定的方式存储记录流。
在记录流出现的时候就处理它们。

Kafka通常用两种常见的应用场景：

创建实时流数据管道，可靠的在系统或是应用之间获取数据。
创建实时流应用，传输或响应流数据。

先来些基本概念：

Kafka可以跨越多个数据中心，在一个或多个服务品上组成集群。
Kafka按分类存储记录流，这些分类称为topic
每条记录都有键、值、时间戳

Kafka有四个核心API：

生产者API：允许应用发布记录流到一个或多个topic
消费者API：允许应用订阅一个或多个topic，并处理相应的记录流。
流API：允许应用作为流处理器，从一个或多个topic中消费输入流，生成一个多或个topic的输出流。高效将输入转为输出。
连接器API：允许创建并运行可重用的生产者和消费者，把topic与已有的应用或数据系统连接起来。。例如，到关系数据库的连接器可以捕获表的变更。

Kafka的CS通信使用的是简单、高效且语言无关的TCP协议。Apache Kafka的官方实现是Java客户端，也有其它语言实现

Topic 与日志

一个topic是所发布记录的类别或是推送名。topic总是有多个订阅者，即是说topic可以有0~N个消费者来订阅写入它的数据。

每一个topic，Kafka集群维护了一个分区的日志：

分区0：|0|1|2|3|4|5|6|7|8|9|10|11|12<-写入
分区1：|0|1|2|3|4|5|6|7|8|9<-写入
分区2：|0|1|2|3|4|5|6|7|8|9|10|11<-写入

每个分区都是有序、不可修改的连续增加的记录序列——结构化提交日志。分区中的记录都被赋予一个称为offset的顺列ID号，在该分区内唯一标识了每条记录。

不论每条记录是否被消费过，Kafka都持久保存了它们——当然可以配置一个保留时间。如保留时间设为2天，则一条记录发布2天后会被删除以腾出空间。Kafka的性能不会随数据大小的增加而变化。
事实上，基于每个消费者所保留的元数据只是该消费者在日志中的偏移或位置。这个偏移是由消费者控制的：通常消费者会线性增加它的偏移，但由于消费者可以控制位置，它是可以随意消费记录的。

分区日志的目的有多种：首先，这会允许日志伸缩超出单个服务器，单独的分区必须在服务器内，但topic可以拥有多个分区从而处理任意多的数据。其次，它们也是并发的一个单位。

分布式

日志的分区在集群的服务器之间布署，每个服务器处理数据和请求分区的一部分。每个分区都有可配置服务器数量的复本从而保证容错。

每个分区都有一台服务器作为一个"leader",以及0~N台服务器作为"followers"。leader处理该分区的所有读写请求，而followers 被动复制leader。如果leader挂了，followers中的一个会自动成为新的leader。各服务器为位于其上的某些分区扮演leader，而对其它分区扮演follower从而让集群内实现负载均衡。