Hadoop11-Kafka

最新推荐文章于 2023-05-08 22:29:18 发布

原创最新推荐文章于 2023-05-08 22:29:18 发布 · 413 阅读

1 ·

CC 4.0 BY-SA版权

大数据专栏收录该内容

20 篇文章

订阅专栏

本文深入解析了Kafka消息队列的核心概念，包括Broker、Topic、Partition、Producer和Consumer等，阐述了Kafka的架构，并提供了Python API实践示例，帮助读者理解如何使用Kafka进行消息生产和消费。

部署运行你感兴趣的模型镜像

1. 核心概念简介

Broker：Kafka 集群包含一个或多个服务器，这种服务器被称为 broker。

Topic：每条发布到 Kafka 集群的消息都有一个类别，这个类别被称为 Topic。（物理上不同 Topic 的消息分开存储，逻辑上一个 Topic 的消息虽然保存于一个或多个 broker 上，但用户只需指定消息的 Topic 即可生产或消费数据而不必关心数据存于何处）。

Partition：Partition 是物理上的概念，每个 Topic 包含一个或多个 Partition。

Producer：负责发布消息到 Kafka broker。

Consumer：消息消费者，向 Kafka broker 读取消息的客户端。

Consumer Group：每个 Consumer 属于一个特定的 Consumer Group（可为每个 Consumer 指定 group name，若不指定 group name 则属于默认的 group）。

用户编程的时候只需要关注Topic，而不需要关注里面的存储细节。

2. 架构

3. API实践

Producer

# coding: utf-8
import csv
import time
from kafka import KafkaProducer
 
# 实例化一个KafkaProducer示例，用于向Kafka投递消息
producer = KafkaProducer(bootstrap_servers='localhost:9092')
# 打开数据文件
csvfile = open("../data/user_log.csv","r")
# 生成一个可用于读取csv文件的reader
reader = csv.reader(csvfile)
 
for line in reader:
    gender = line[9] # 性别在每行日志代码的第9个元素
    if gender == 'gender':
        continue # 去除第一行表头
    time.sleep(0.1) # 每隔0.1秒发送一行数据
    # 发送数据，topic为'sex'
    producer.send('sex',line[9].encode('utf8'))

Consumer

from kafka import KafkaConsumer
 
consumer = KafkaConsumer('sex')
for msg in consumer:
    print((msg.value).decode('utf8'))

问题

1. Topic的分区怎么理解？

有了分区后，假设一个topic可能分为10个分区，kafka内部会根据一定的算法把10分区尽可能均匀分布到不同的服务器上，比如：A服务器负责topic的分区1，B服务器负责topic的分区2，在此情况下，Producer发消息时若没指定发送到哪个分区的时候，kafka就会根据一定算法上个消息可能分区1，下个消息可能在分区2。当然高级API也能自己实现其分发算法。
（链接：https://www.zhihu.com/question/28925721/answer/43648910）

您可能感兴趣的与本文相关的镜像