Kafka: 分布式流平台入门之安装、配置

原创于 2025-12-21 09:30:00 发布 · 1.3k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#分布式 #kafka

Kafka 专栏收录该内容

11 篇文章

订阅专栏

Kafka 核心概念与定位

关键纠正：
Kafka 不是传统消息队列，而是分布式流处理平台（Apache 官方定义）。其核心差异在于：

设计目标：支撑高吞吐、低延迟的实时数据流处理（如对接 Spark/Flink），而非单纯消息传递。
核心特性：
- 高吞吐量：单集群可处理百万级消息/秒。
- 持久化存储：消息按分区（Partition）顺序写入磁盘，支持回溯消费。
- 流处理能力：原生集成 Kafka Streams API，支持复杂事件处理。

其核心差异：

特性	传统消息队列	Kafka 流平台
设计目标	应用解耦/异步通信	高吞吐实时流处理
吞吐量	万级 TPS	百万级 TPS
数据保留	消费后删除	持久化存储+回溯
典型应用	任务队列	实时分析/ETL/监控

技术背景：

起源：LinkedIn 基于 Scala 开发，专为大数据场景优化
核心特性：
- 分布式架构：依赖 Zookeeper 协调
- 高吞吐低延迟：顺序磁盘 I/O + 零拷贝技术
- 流处理能力：原生支持 Spark/Flink 集成
关键认知：Kafka 可被用作消息中间件，但本质是流处理基础设施。其 日志存储结构 和 分区机制 是支撑实时数据管道的核心。

传统消息队列（如 RabbitMQ）更侧重消息路由、事务一致性，而 Kafka 专注流数据管道构建。

环境安装与配置

前置依赖

JDK 1.8+：Kafka（Scala 开发）和 ZooKeeper（Java）的运行基础。
ZooKeeper 3.6+：管理 Kafka 集群元数据（Broker、Topic、分区状态）。
Kafka 2.8+：推荐版本（原文 2.4.0 过旧，已升级）。

安装步骤

JDK 配置

# 解压 JDK 至 /opt/install  
tar -zxvf jdk-8u371-linux-x64.tar.gz -C /opt/install  
 
# 配置环境变量（/etc/profile）  
export JAVA_HOME=/opt/install/jdk1.8.0_371  
export PATH=$PATH:$JAVA_HOME/bin  
 
# 生效配置  
source /etc/profile  
java -version  # 验证安装

ZooKeeper 配置

# 解压并修改配置文件（zoo.cfg）  
tar -zxvf apache-zookeeper-3.6.3-bin.tar.gz -C /opt/install  
cd /opt/install/apache-zookeeper-3.6.3-bin/conf  
cp zoo_sample.cfg zoo.cfg  
 
# 关键配置项  
dataDir=/var/lib/zookeeper  # 生产环境需独立磁盘目录  
clientPort=2181  
 
# 启动 ZooKeeper  
bin/zkServer.sh start  
bin/zkCli.sh -server 127.0.0.1:2181  # 验证连接

Kafka 配置

# 解压并修改 server.properties  
tar -zxvf kafka_2.13-2.8.1.tgz -C /opt/install  
cd /opt/install/kafka_2.13-2.8.1/config  
 
# 关键配置项  
listeners=PLAINTEXT://192.168.1.100:9092  # 替换为服务器IP  
advertised.listeners=PLAINTEXT://192.168.1.100:9092  
log.dirs=/var/log/kafka  # 生产环境需大容量磁盘  
zookeeper.connect=localhost:2181  # ZooKeeper 地址  
 
# 启动 Kafka  
bin/kafka-server-start.sh config/server.properties

# 基础功能验证
kafka-topics.sh --list --bootstrap-server 192.168.1.100:9092

基础操作与验证

1 ) Kafka 控制台命令

功能	命令
创建 Topic	`bin/kafka-topics.sh --create --topic test-topic --partitions 3 --replication-factor 1 --bootstrap-server 192.168.1.100:9092`
生产消息	`bin/kafka-console-producer.sh --topic test-topic --bootstrap-server 192.168.1.100:9092`
消费消息	`bin/kafka-console-consumer.sh --topic test-topic --from-beginning --bootstrap-server 192.168.1.100:9092`
查看 Topic 列表	`bin/kafka-topics.sh --list --bootstrap-server 192.168.1.100:9092`

2 ) 存储机制解析

分区（Partition）：Topic 被拆分为多个分区，实现并行处理。
分段日志（Segment Log）：每个分区由多个 *.log 文件组成，避免单文件过大。
偏移量（Offset）：消息在分区内的唯一 ID，消费者据此定位读取位置。

工程示例：1

1 ）方案 1：原生 KafkaJS 驱动

// 安装依赖：npm install kafkajs
import { Kafka } from 'kafkajs';
 
const kafka = new Kafka({
  brokers: ['192.168.1.100:9092'],
});
 
// 生产者
const producer = kafka.producer();
await producer.connect();
await producer.send({
  topic: 'test-topic',
  messages: [{ value: 'Hello Kafka from NestJS!' }],
});
 
// 消费者
const consumer = kafka.consumer({ groupId: 'test-group' });
await consumer.connect();
await consumer.subscribe({ topic: 'test-topic' });
await consumer.run({
  eachMessage: async ({ message }) => {
    console.log(`Received: ${message.value.toString()}`);
  },
});

2 ）方案 2：NestJS 官方 @nestjs/microservices 模块

// app.module.ts
import { Module } from '@nestjs/common';
import { ClientsModule, Transport } from '@nestjs/microservices';
 
@Module({
  imports: [
    ClientsModule.register([
      {
        name: 'KAFKA_SERVICE',
        transport: Transport.KAFKA,
        options: {
          client: {
            brokers: ['192.168.1.100:9092'],
          },
          consumer: {
            groupId: 'nestjs-group',
          },
        },
      },
    ]),
  ],
})
export class AppModule {}
 
// producer.service.ts 
import { Inject, Injectable } from '@nestjs/common';
import { ClientKafka } from '@nestjs/microservices';
 
@Injectable()
export class ProducerService {
  constructor(@Inject('KAFKA_SERVICE') private client: ClientKafka) {}
 
  async sendMessage(topic: string, message: string) {
    this.client.emit(topic, { value: message });
  }
}
 
// consumer.controller.ts
import { Controller, Post } from '@nestjs/common';
import { EventPattern, Payload } from '@nestjs/microservices';
 
@Controller()
export class ConsumerController {
  @EventPattern('test-topic')
  handleMessage(@Payload() message: { value: string }) {
    console.log(`Consumed: ${message.value}`);
  }
}

3 ）方案 3：Schema Registry 集成（Avro 序列化）

// 安装依赖：npm install @kafkajs/confluent-schema-registry avsc
import { Kafka } from 'kafkajs';
import { SchemaRegistry } from '@kafkajs/confluent-schema-registry';
 
const registry = new SchemaRegistry({ host: 'http://schema-registry:8081' });
const kafka = new Kafka({ brokers: ['192.168.1.100:9092'] });
 
// 发送 Avro 格式消息
const producer = kafka.producer();
const { id } = await registry.register({
  type: 'record',
  name: 'Message',
  fields: [{ name: 'content', type: 'string' }],
});
await producer.send({
  topic: 'avro-topic',
  messages: [
    { 
      value: await registry.encode(id, { content: 'Schema-enabled message' }) 
    },
  ],
});
 
// 消费并解码 Avro 消息
const consumer = kafka.consumer({ groupId: 'avro-group' });
await consumer.run({
  eachMessage: async ({ message }) => {
    const decoded = await registry.decode(message.value);
    console.log(`Decoded: ${decoded.content}`);
  },
});

工程示例：2

1 ) 方案 1：基础生产者-消费者


// producer.service.ts  
import { Injectable } from '@nestjs/common';
import { Kafka, Producer, ProducerRecord } from 'kafkajs';
 
@Injectable()
export class KafkaProducerService {
  private producer: Producer;
 
  constructor() {
    const kafka = new Kafka({
      brokers: ['192.168.1.10:9092'],
    });
    this.producer  = kafka.producer(); 
  }
 
  async sendMessage(topic: string, message: string) {
    await this.producer.connect(); 
    const record: ProducerRecord = {
      topic,
      messages: [{ value: message }],
    };
    await this.producer.send(record); 
  }
}
 
// consumer.service.ts 
import { Injectable } from '@nestjs/common';
import { Kafka, ConsumerRunConfig } from 'kafkajs';
 
@Injectable()
export class KafkaConsumerService {
  private consumer;
 
  constructor() {
    const kafka = new Kafka({
      brokers: ['192.168.1.10:9092'],
    });
    this.consumer  = kafka.consumer({  groupId: 'test-group' });
  }
 
  async subscribe(topic: string, callback: (message: string) => void) {
    await this.consumer.connect(); 
    await this.consumer.subscribe({  topic });
    const runConfig: ConsumerRunConfig = {
      eachMessage: async ({ message }) => {
        callback(message.value.toString()); 
      },
    };
    await this.consumer.run(runConfig); 
  }
}

2 ) 方案 2：事务消息保障

// 创建支持事务的 Kafka 生产者
const producer = kafka.producer({ 
  transactionTimeout: 30000,  // 事务超时时间（毫秒）
});
 
// 执行事务操作 
await producer.transaction().run(async  ({ send }) => {
  // 1. 发送 Kafka 消息
  await send({
    topic: 'orders',
    messages: [{ value: 'Order_Created' }], 
  });
 
  // 2. 执行业务逻辑（如数据库操作）
  await databaseService.createOrder(); 
  
  // 事务自动提交（成功）或回滚（失败）
});

3 ) 方案 3：Schema Registry 集成（Avro 协议）

import { SchemaRegistry } from '@kafkajs/confluent-schema-registry';
 
// 注册 Avro Schema 
const registry = new SchemaRegistry({ 
  host: 'http://schema-registry:8081' 
});
 
const schema = `{
  "type": "record",
  "name": "Payment",
  "fields": [
    { "name": "amount", "type": "double" }
  ]
}`;
 
// 注册 Schema 并获取 ID
const id = await registry.register({  
  type: 'AVRO', 
  schema 
});
 
// 编码消息
const payload = { amount: 99.99 };
const encodedValue = await registry.encode(id,  payload);
 
// 发送带 Schema 的消息
await producer.send({ 
  topic: 'payments',
  messages: [
    { value: encodedValue }
  ]
});

工程示例：3

1 ) 方案 1：基础生产者-消费者

// producer.service.ts 
import { Injectable } from '@nestjs/common';
import { Client, Producer, ProducerRecord } from 'kafkajs';@Injectable() 
export class KafkaProducer {
  private producer: Producer;
  constructor() { 
    const kafka = new Client({
      brokers: ['192.168.1.100:9092'],
    }); 
    this.producer = kafka.producer();
  } 

  async sendMessage(topic: string, message: string) {
    await this.producer.connect();
    const record: ProducerRecord = {
      topic,
      messages: [{ value: message }],
    };    await this.producer.send(record);
  } 
}

// consumer.service.ts
import { Injectable, OnModuleInit } from '@nestjs/common';
import { Consumer, Kafka } from 'kafkajs';

@Injectable()
export class KafkaConsumer implements OnModuleInit {
  private consumer: Consumer;

  constructor() {
    const kafka = new Kafka({ brokers: ['192.168.1.100:9092'] });
    this.consumer = kafka.consumer({ groupId: 'nestjs-group' });
  }

  async onModuleInit() {
    await this.consumer.connect();
    await this.consumer.subscribe({ topic: 'test-topic', fromBeginning: true });
    this.consumer.run({ 
      eachMessage: async ({ message }) => {
        console.log(`Received: ${message.value.toString()}`);
      }, 
    });
  }}

2 ) 方案 2：事务性消息传递

// transactional.producer.ts
async sendTransactionalMessage(topic: string, messages: string[]) {
  const transaction = await this.producer.transaction();
  try {    await transaction.send({ 
      topic,
      messages: messages.map(msg => ({ value: msg })),
    });    await transaction.commit(); 
  } catch (error) {    await transaction.abort();    throw error; 
  }
}

3 ) 方案 3：流处理集成（KafkaJS + Node.js Streams）

import { Stream } from 'kafkajs';
 
async createTopicStream(topic: string) {
  const stream = await Stream(this.consumer, { topics: [topic] });
  stream.on('data', ({ message }) => {
    // 流式数据处理逻辑
    this.processData(message.value.toString());
  });
}
) {
  // 实现实时数据分析/转换逻辑 
}

架构设计注意事项

生产环境配置：
- 数据目录分离：log.dirs 挂载独立 SSD 磁盘阵列
- Zookeeper 集群：至少 3 节点避免脑裂
- 副本机制：replication.factor ≥ 2 + min.insync.replicas=1
NestJS 最佳实践：
- 连接池管理：复用 Kafka 客户端实例
- 错误处理：实现 retry 机制 + DLQ（死信队列）
- 性能优化：启用 compression.type=snappy
流处理扩展：
- 集成 Kafka Streams API 实现实时 ETL
- 使用 ksqlDB 构建流式 SQL 查询
- 监控方案：Prometheus + Grafana 看板

初学者提示：分区(Partition)是 Kafka 并行处理的基本单元，消费者组(Consumer Group)中每个分区仅被一个消费者处理，实现水平扩展。

生产环境关键配置

Kafka 集群：
- broker.id 唯一标识每个节点
- num.network.threads=8 提高网络吞吐
- default.replication.factor=3 确保数据冗余
ZooKeeper 集群：
- 至少 3 节点部署，避免单点故障
- tickTime=2000 与 initLimit=10 控制节点同步
NestJS 优化：
- 使用 kafkajs 的 compression 参数减少带宽占用
- 通过 batch 配置合并发送消息提升吞吐

注意：原文中所有 Java/Spring Boot 技术栈已替换为 NestJS 等效实现，确保技术栈一致性。

常见问题排查

连接失败：检查 advertised.listeners 是否暴露正确 IP
消息堆积：增加消费者组并行度（partitions > consumers）
数据丢失：设置 acks=all 确保消息持久化

生产环境最佳实践

磁盘优化：
- 使用多块 SSD 挂载不同 log.dirs 目录提升 IO 并行度
网络配置：
properties # server.properties 关键参数 socket.send.buffer.bytes=1024000 # 调优发送缓冲区 socket.request.max.bytes=104857600 # 允许最大消息 100MB 3. 监控集成：
- Prometheus + Grafana 监控指标（消息堆积率/网络延迟）
- Kafka Manager 可视化集群状态

关键检查点：