Kafka_基本结构和原理

最新推荐文章于 2025-11-24 23:15:52 发布

原创

最新推荐文章于 2025-11-24 23:15:52 发布 · 351 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#kafka #大数据 #java

Kafka是一个高吞吐、低延迟的分布式消息系统，最初由LinkedIn开发并贡献给Apache。它用于日志收集、消息系统、用户活动跟踪、运营指标监控和流式处理等场景。Kafka具有可扩展性、持久性和容错性，支持 Consumergroup 模式和消息持久化。Producer使用异步push方式向broker发送消息，Consumer则从broker拉取消息。Kafka利用分区机制提高吞吐量，每个分区具有多个副本以实现容错。消费者组内的消费者可以并行消费不同分区，但不会消费同一分区的消息。

一、概念理解

Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎，web/nginx日志、访问日志，消息服务等等，用scala语言编写，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。

（1）产生背景

当今社会各种应用系统诸如商业、社交、搜索、浏览等像信息工厂一样不断的生产出各种信息，在大数据时代，我们面临如下几个挑战：

1.如何收集这些巨大的信息

2.如何分析它

3.如何及时做到如上两点

以上几个挑战形成了一个业务需求模型，即生产者生产（produce）各种信息，消费者消费（consume）（处理分析）这些信息，而在生产者与消费者之间，需要一个沟通两者的桥梁-消息系统。从一个微观层面来说，这种需求也可理解为不同的系统之间如何传递消息。

Kafka诞生

Kafka由 linked-in 开源

kafka-即是解决上述这类问题的一个框架，它实现了生产者和消费者之间的无缝连接。

kafka-高产出的分布式消息系统(A high-throughput distributed messaging system)

（2）Kafka的特性

高吞吐量、低延迟：kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒