[Kafka]：00 - 初步认识：成长故事、特性、使用场景、架构

最新推荐文章于 2025-08-14 17:27:30 发布

神是念着倒

最新推荐文章于 2025-08-14 17:27:30 发布

阅读量291

点赞数

CC 4.0 BY-SA版权

分类专栏： Hadoop大数据文章标签： kafka hadoop 消息发布与订阅流处理

本文链接：https://blog.youkuaiyun.com/weixin_38256474/article/details/90302654

Hadoop大数据专栏收录该内容

16 篇文章

订阅专栏

本文介绍了Kafka的命名由来、成长历程，它于2010年开源，历经多个版本迭代。Kafka是Apache开源流处理平台，具备高吞吐量、可扩展等特点，适用于日志收集、消息系统等场景。还阐述了其架构，包含生产者、代理、消费者组和Zookeeper集群等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

0、名字-kafka

在这里插入图片描述
看到这本书《KAFKA The Metamorphosis》（译名：变形记），作者：Franz Kafka。豆瓣评分8.4分，3万多评价，与Apache kafka重名并不是巧合。

Apache kafka开发者Jay Kreps提供了他的见解：由于Kafka是一个针对写作优化的系统，使用作者的名字是有道理的。我在大学里学过很多课程，并且喜欢弗兰兹·卡夫卡。此外，对于一个开源项目来说这个名字听起来很酷。

这就是其名字的渊缘。

1、kafka成长故事

LinkedIn的开发团队主要由软件工程师/架构师Jay Kreps领导，他之前负责分布式键值存储系统Voldemort的开发和开源发布。最初的团队还包括Neha Narkhede和后来的Jun Rao。他们共同创建了一个消息系统，可以满足监控和跟踪系统的需求，并可以扩展到未来。主要目标是：

使用推拉模型将生产者和消费者分离
为消息传递系统中的消息数据提供持久性，以允许多个消费者
优化消息的高吞吐量
允许系统的水平扩展随着数据流的增长而增长

最终一个发布/订阅消息传递系统诞生了，它具有典型的消息传递系统接口，但存储层更像是一个日志聚合系统。结合使用Apache Avro进行消息序列化，Kafka可以有效地处理每天数十亿条消息的指标和用户活动跟踪。 Kafka的可扩展性帮助LinkedIn的使用量增长了超过1万亿条消息（截至2015年8月），每天消耗的数据超过1 PB。

2010年底，Kafka在GitHub上作为开源项目发布，初始版本是0.7.0。
随着它开始在开源社区引起关注，2011年7月被提议并被接受为Apache Software Foundation孵化器项目。
2012年10月，Apache Kafka从孵化器项目毕业。

从那时起，它一直在努力，并在LinkedIn之外找到了一个强大的贡献者和提交者社区。 Kafka现在用于世界上一些最大的数据管道。

2014年秋天，Jay Kreps、Neha Narkhede、Jun Rao离开LinkedIn，成立Confluent，一家以给Apache Kafka提供开发、企业支持和培训为中心的公司。
2017年11月1日，发布1.0.0版本
2018年7月30日，发布2.0.0版本
2019年3月22日，发布2.2.0版本。这是迄今（20190527）最新版本。

kafka各版本下载

kafka源码是scala编写的，支持scala、python、java、php、c++等语言。

LinkedIn、Confluent、开源社区等持续贡献、开发、维护Kafka，使其成为大数据流水线的首选。

2、在Hadoop生态中的Kafka

在这里插入图片描述
Kafka属于Apache的一个开源流处理平台，是一种高性能的跨语言的分布式发布/订阅消息系统（这个功能类似于消息队列，这也是kafka归类为消息队列框架的原因。也可以认为是消息中间件）。有如下特点（特性）：

高吞吐量、低延迟：kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒，每个topic可以分多个partition, consumer group 对partition进行consume操作；
可扩展性：kafka集群支持热扩展；
持久性、可靠性：消息被持久化到本地磁盘，并且支持数据备份防止数据丢失；
容错性：允许集群中节点失败（若副本数量为n,则允许n-1个节点失败）；
高并发：支持数千个客户端同时读写；
支持实时在线处理和离线处理：可以使用Storm这种实时流处理系统对消息进行实时进行处理，同时还可以使用Hadoop这种批处理系统进行离线处理；

Kafka使用场景：

日志收集：一个公司可以用Kafka可以收集各种服务的log，通过kafka以统一接口服务的方式开放给各种consumer，例如Hadoop、Hbase、Solr等；
消息系统：解耦和生产者和消费者、缓存消息等；
用户活动跟踪：Kafka经常被用来记录web用户或者app用户的各种活动，如浏览网页、搜索、点击等活动，这些活动信息被各个服务器发布到kafka的topic中，然后订阅者通过订阅这些topic来做实时的监控分析，或者装载到Hadoop、数据仓库中做离线分析和挖掘；
运营指标：Kafka也经常用来记录运营监控数据。包括收集各种分布式应用的数据，生产各种操作的集中反馈，比如报警和报告；
流式处理：比如spark streaming和storm；
等等；

3、Kafka架构图

在这里插入图片描述
一个典型的Kafka集群中包含：

若干Producer（可以是web前端产生的Page View，或者是服务器日志，系统CPU、Memory等）。Producer，是日志消息生产者，用来写数据。这里的【日志】不要误读了，不是日常编程中的log（如报错、警告、提示性错误等标记信息，追踪问题的标签/记录），在此它应该是message（kafka的基本数据单位）
若干broker（Kafka支持水平扩展，一般broker数量越多，集群吞吐率越高）。每一台机器叫一个Broker（Kafka Server）。
若干Consumer Group，以及一个Zookeeper集群。Consumer，是消息的消费者，用来读数据。

还有几个常见名词：

Topic，不同消费者去指定的Topic中读，不同的生产者往不同的Topic中写。它是一个逻辑概念。
Partition，在Topic基础上做了进一步区分分层（也就是说：一个Topic是由一个或多个Partition实现的）。Topic的物理实现（以文件夹的形式存在）。Partition内部还有segment。

Kafka通过Zookeeper管理集群配置，选举leader，以及在Consumer Group发生变化时进行rebalance（这是负载均衡的思想，如出现个别节点不稳定，就体现了rebalance机制）。Producer使用push模式将消息发布到broker，Consumer使用pull模式从broker订阅并消费消息

kafka官网
 Github-Apache kafka