3.1 Kafka 工作流程及文件存储机制

原创

已于 2022-02-18 15:10:14 修改 · 1.1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#kafka #Kafka 工作流程 #kafka文件存储机制

于 2021-12-25 20:35:44 首次发布

本文概述了Kafka的工作流程，包括生产者发送消息机制、topic与partition的关系，以及文件存储机制，重点讲解index和log文件结构。理解这些有助于掌握Kafka高效消息传递的基础。

文章目录

3.1、Kafka 工作流程及文件存储机制

3.1、Kafka 工作流程及文件存储机制

3.1.1、工作流程

kafka整体工作流程图：

Kafka 生产端发送消息的机制是 Kafka 高吞吐的基础，生产端的基本流程如下图所示：
请添加图片描述

Kafka 中消息是以 topic 进行分类的， producer生产消息，consumer消费消息，都是面向 topic的。(从命令行操作看出)

bin\windows\kafka-console-producer.bat --broker-list localhost:9092 --topic test

bin\windows\kafka-console-consumer.bat --bootstrap-server localhost:9092 --topic test --from-beginning

topic 是逻辑上的概念，而 partition 是物理上的概念。 每个 partition 对应于一个 log 文件，该 log 文件中存储的就是 producer 生产的数据。（topic = N partition，partition = log）

Producer 生产的数据会被不断追加到该log 文件末端，且每条数据都有自己的 offset。 consumer组中的每个consumer，都会实时记录自己消费到了哪个 offset，以便出错恢复时，从上次的位置继续消费。（produ

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

悬浮海

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

Kafka存储机制：数据如何持久化深入解析存储机制

AI天才研究院

08-10

1271

Kafka存储机制：数据如何持久化-深入解析存储机制 1.背景介绍 Apache Kafka是一个分布式流处理平台,被广泛应用于大数据领域。它能够可靠地在系统或应用程序之间传递消息。作为一个分布式系统,Kafka需要持久化数据以确保容错性和可靠性。本文将深入探讨Kafka

Kafka 消息存储与销毁机制

AI天才研究院

05-27

851

在现代分布式系统中，消息队列作为一种重要的中间件，广泛应用于数据传输、异步处理、负载均衡等场景。Apache Kafka 作为一种高吞吐量、低延迟的分布式消息系统，因其强大的性能和可靠性，成为了业界的首选。Kafka 的消息存储与销毁机制是其核心功能之一，本文将深入探讨 Kafka 的消息存储与销毁机制，帮助读者更好地理解和使用 Kafka。Kafka 是一个分布式流处理平台，最初由 LinkedIn 开发，并于 2011 年开源。高吞吐量：Kafka 能够处理大量的消息，适用于大数据实时处理场景。

参与评论您还未登录，请先登录后发表或查看评论

Kafka（二）【文件存储机制 & 生产者】

功不唐捐，玉汝于成

01-19

1987

Kafka 文件存储机制、生产者发送数据、分区、数据的容错与一致性保证

Kafka文件存储机制详解

清晨@暖阳

07-27

1195

Kafka文件存储机制详解一、Kafka粗略解释二、Kafka的名词解释三、Kafka文件存储机制1、partiton（分区）中文件存储方式2、partiton中segment文件存储结构3、消息的物理结构a、那么如何在分区中通过offset查找消息？总结Kafka高效文件存储设计特点一、Kafka粗略解释 Kafka是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统(也可以当做MQ系统)，常见可以用于web/nginx日志、访问日志，消息服务等（注重于消息队列的使用）

深入了解Kafka的文件存储原理

爱琴孩的博客

03-02

1609

Kafka最初由Linkedin公司开发的分布式、分区的、多副本的、多订阅者的消息系统。它提供了类似于JMS的特性，但是在设计实现上完全不同，此外它并不是JMS规范的实现。kafka对消息保存是根据Topic进行归类，发送消息者称为Producer；消息接受者称为Consumer；此外kafka集群有多个kafka实例组成，每个实例(server)称为broker。

Kafka学习-----文件存储机制和分片索引

atomatom98的博客

10-31

693

目录一.Kafka工作流程1.整体架构2.需要注意⚠️：二.分片索引机制示例：如何找到对应offset的Message消息呢三.总结一.Kafka工作流程 1.整体架构消息交互两方分别是生产者Producer和消费者Consumer，Kafka集群Cluster中，有三个broker，类似于三个实例。其中针对同一个Topic A有三个不同分区Partition，每个都有自己的follower（备份用）。 2.需要注意⚠️： Kafka 中消息是以 topic 进行分类的，生产者生产消息，消费者消费消

Kafka的分片和索引机制

Aeroever的博客

04-24

227

index文件左面顺序是offset偏移量，右面是字节的位置，还存储了消息的大小，比如定位到3-756,3是offset偏移量，756是字节开始位置，消息大小为1000，所以直接定位到消息756到1756的位置，既为该条消息。segment根据partition的offset命名，定位到某个segment文件后，是使用二分查找法查找消息。

深入分析Kafka架构（一）：工作流程、存储机制、分区策略

静待花开

04-13

3618

kafka主要应用在大数据的实时处理领域，使用起来比较简单，本文主要分析kafka的工作流程、存储机制，分区策略，并围绕多个角度展开总结。

kafka分片

Computer_hello的博客

11-07

5918

1.kafka中topic的概念在kafka中，topic只是存储消息的一个逻辑的概念，他并没有实际的文件存在磁盘上，可以认为是某一类型的消息的集合。所有发送到kafka上的消息都一个类型，这个类型就是他的topic。在物理上来说，不同的topic的消息是分开存储的。同时，一个topic可以有多个producer和多个consumer。 2.kafka中partition的概念每个topic下面可以有多个分区，每一个topic至少会有一个partition，相同的topic下面，不同的partit

kafka使用索引查找message

wangzhicheng2013的专栏

05-30

785

1.offset：一种逻辑概念，类似C语言数组的索引号，每个offset记录了消息在具体分区的位置，offset对应物理上的地址，如offset=1对应的物理地址是2809，即相应分区的第2809个字节； 2.offset不是全局递增，只是在单个分区内单调递增； 3.message结构：offset+字节大小+具体消息 4..log和.index文件，.log文件记录了message，.index文件是.log文件的索引文件，它们在kafka配置项server.properties/log.dirs定

如何根据 offset 找到对应的 Message？

xljlckjolksl的博客

05-09

720

来快速定位目标数据在 Segment 中的位置，否则就要读取整个 Segment 文件了，这里需要的索引信息就是上面的 index 文件存储的内容。可以直接根据 Segment 的文件名进行查找（上面已经介绍了 Segment 的文件面就是它包含的数据的起始 Offset ）。（Offset 对应的消息在 log 文件中的偏移量）的对应关系，这样当有 Offset 时可以快速定位到 Position 读取。第二步，从 Segment 中获取对应 Offset 的消息数据。索引文件中包含多个索引条目，

Kafka分区

m0_52831800的博客

11-14

6302

一、分区的概念规则 1、每个topic（逻辑名称）由一个或多个分区组成，分区是topic物理上的分组，在创建topic时被指定 2、一个partition只对应一个Broke，一个Broke可以管理多个partition 3、由消息在顺序写入，在同一个分区内的消息是有序的，在不同的分区间，kafka并不保证消息的顺序（所以kafka消息是支持跨分区的） 3.1 同一个主题下，不同分区所包含的内容是不同的，每个消息被添加到分区当中时，会被分配一个偏移量（Offset），它是消息在分区当中的唯一编号，kafk

kafka的分片和副本机制

jdk819的博客

09-09

1942

一、分片机制 kafka的分片，是为了解决单台服务器容量有限问题。当数据量比较大时，一台服务器放不下，将数据分成多个片，存储在多个服务器上。每个服务器上的数据叫做一个片。问题：分片后，数据存储在哪个片区怎么确定？二、副本机制 Kafka的副本机制，解决存储数据的高可用问题，一台服务器上存储数据，有丢失的风险。多拷贝几份数据到不同的服务器，可以达到容灾、容错的目的。总结 ...

kafka的topic分片与副本机制

独孤一剑

07-26

4174

此处的分片指的是对topic中数据进行分片和建立副本, 一个个topic理解为solrCloud中一个个大的索引库分片机制：主要解决了单台服务器存储容量有限的问题当数据量非常大的时候，一个服务器存放不了，就将数据分成两个或者多个部分，存放在多台服务器上。每个服务器上的数据，叫做一个分片副本：副本备份机制解决了数据存储的高可用问题当数据只保存一份的时候，有丢失的风险。为了更好的容错和容...

大数据Kafka（七）：Kafka的分片和副本机制

Lansonli（蓝深李）的博客

08-15

3190

主要解决了单台服务器存储容量有限的问题当数据量非常大的时候，一个服务器存放不了，就将数据分成两个或者多个部分，存放在多台服务器上。每个服务器上的数据，叫做一个分片

一文搞懂 Apache RocketMQ 消费者关键配置，优化消息消费！

JavaEdge全是干货的技术号

10-08

2725

默认0，拉消息间隔，由于是长轮询，所以为0，但若应用为流控，也可设置大于0的值，单位毫秒。默认10，消费线程池数量/默认20，消费线程数量。默认2000，单队列并行消费允许的最大跨度。消息进度存储，存储实际的偏移量，两种实现。默认1000，拉消息本地队列缓存消息最大数。默认32，批量拉消息，一次最多拉多少条。默认1，批量消费，一次消费多少条消息。

kafka分片扩展迁移

古川熊灰的博客

09-16

620

kafka正常工作时会保留大量的数据文件，因此，在进行partitions迁移之前，先修改${KAFKA_HOME}/config/server.properties文件中的 log.retention.hours属性值，建议设置为1，具体值视具体情况而定。然后重启kafka集群，运行一段时间后 kafka保留的数据文件便会有效降低。创建一个json文件(如topics-to-move.json)，定义需要改变的topic，如下所示： {"topics": [{"topic": "jn..

Kafka原理以及分区分配策略剖析