初步认识Kafka

最新推荐文章于 2025-08-05 10:46:13 发布

vince_liu123

最新推荐文章于 2025-08-05 10:46:13 发布

阅读量113

点赞数 1

CC 4.0 BY-SA版权

分类专栏：大数据组件文章标签： kafka

本文链接：https://blog.youkuaiyun.com/vince_liu123/article/details/97791387

大数据组件专栏收录该内容

6 篇文章

订阅专栏

本文全面介绍了Apache Kafka，包括其作为分布式消息队列的功能、特点、基本架构和使用方法。探讨了Kafka的分片与副本机制，确保数据不丢失的策略，以及消息存储和查询机制。同时，详细讲解了生产者数据分发策略和消费者负载均衡机制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.什么是Kafka

Apache Kafka是一个开源的分布式消息队列 (生产者消费者模式) Apache Kafka 目标:构建企业中统一的. 高通量的,低延时的消息平台 ; 大多的消息队列是基于JMS标准实现的Apache Kafka l类似于JMS的实现.

2.Kafka的特点

作为缓冲(流量消减),来异构,解耦系统

3.基本架构

Kafka Cluster：由多个服务器组成。每个服务器单独的名字broker（掮客）。

kafka broker：kafka集群中包含的服务器

Kafka Producer：消息生产者、发布消息到 kafka 集群的终端或服务。

Kafka consumer：消息消费者、负责消费数据。

Kafka Topic: 主题，一类消息的名称。存储数据时将一类数据存放在某个topic下，消费数据也是消费一类数据。

订单系统：创建一个topic，叫做order。

用户系统：创建一个topic，叫做user。

商品系统：创建一个topic，叫做product。

注意：Kafka的元数据都是存放在zookeeper中。

4.Kafka的基本使用

4.1使用脚本操作Kafka

创建一个topic

./kafka-topics.sh --create --zookeeper node01:2181 --replication-factor 1 --partitions 1 --topic order

使用Kafka 自带一个命令客户端启动一个生产者,生产数据
./kafka-console-producer.sh --broker-list node01:9092 --topic order
使用Kafka自带一个命令客户端启动一个消费者,消费数据

./kafka-console-consumer.sh --bootstrap-server node01:9092 --topic order
该消费语句，只能获取最新的数据，要想历史数据，需要添加选项-

4)查看有哪些topic

./kafka-topics.sh --list --zookeeper node01:2181

查看某一个具体的Topic的详细信息

./kafka-topics.sh --describe --topic order --zookeeper node01:2181

删除topic

./kafka-topics.sh --delete --topic order --zookeeper node01:2181

4.2 使用java API 操作kafka
第一步: 添加kafka相关的依赖

org.apache.kafka kafka-clients 0.11.0.1

4.2.1 编写生产者 :
// kakfa的生产者
public class KafkaProducerTest {

public static void main(String[] args) {

    //1. 创建 kafka的生产者的对象

    Properties props = new Properties();

    props.put("bootstrap.servers", "192.168.72.141:9092,192.168.72.142:9092,192.168.72.143:9092");
    props.put("acks", "all");  // 消息确认机制 : all 最高级别, 保证数据不会丢失
    props.put("retries", 0); // 重试 : 0 表示发送失败, 不会重试
    props.put("batch.size", 16384);  // 发送数据时候 一批数据的大小    默认值: 16384字节(16)
    props.put("linger.ms", 1);    // 每次发送数据间隔时间
    props.put("buffer.memory", 33554432); //  缓存池的大小: 默认值:  33554432   32M
    props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer"); // 效率, java的序列化慢
    props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

    KafkaProducer<String,String> producer = new KafkaProducer<String, String>(props);
    //2. 发送消息
    ProducerRecord<String, String> record = new ProducerRecord<String, String>("order", "我是JavaAPI发过来...");
    producer.send(record);
    //3. 关闭资源

    producer.close();
}

}

4.2.2 编写消费者
package com.itheima.kafka.consumer;

import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;

import java.util.Arrays;
import java.util.Properties;

// kafka的消费者
public class KafkaConsumerTest {

public static void main(String[] args) {


    Properties props = new Properties();
    props.put("bootstrap.servers", "192.168.72.141:9092,192.168.72.142:9092,192.168.72.143:9092");
    props.put("group.id", "test"); // 组id号
    props.put("enable.auto.commit", "true");  // 开启自动提交
    props.put("auto.commit.interval.ms", "1000"); //  每隔多长时间自动提交一次
    props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
    props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
    //1. 创建 kafka的消费者的对象
    KafkaConsumer<String, String> consumer = new KafkaConsumer<String, String>(props);

    //2.  让消费者订阅一个topic
    consumer.subscribe(Arrays.asList("order"));

    //3. 获取消息
    while (true) {
        ConsumerRecords<String, String> records = consumer.poll(100); // 取出元素,
        for (ConsumerRecord<String, String> record : records) {
            System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());

        }
    }

}

}

5 Apache Kafka原理

5.1 分片与副本机制 :
分片机制：主要解决了单台服务器存储容量有限的问题

当数据量非常大的时候，一个服务器存放不了，就将数据分成两个或者多个部分，存放在多台服务器上。每个服务器上的数据，叫做一个分片

副本：副本备份机制解决了数据存储的高可用问题

当数据只保存一份的时候，有丢失的风险。为了更好的容错和容灾，将数据拷贝几份，保存到不同的机器上。在放置副本的时候:

假设有三个分片, 三个副本, 共计9个节点

在三台服务器上各放置一个分片的副本

第二个副本放置在和这台服务器同机架上

第三个副本放置在不同的机架的服务器上

5.2 Kafka 保证数据不丢失机制

5.2.1保证生产端数据不丢失机制