kafka快速使用

最新推荐文章于 2025-07-18 14:07:48 发布

翻译最新推荐文章于 2025-07-18 14:07:48 发布 · 285 阅读

文章标签：

#Kafka #简单 #快速使用

Kafka 专栏收录该内容

2 篇文章

订阅专栏

 基于Unix/Linux和Windows平台的Kafka控制台脚本不同，因此在Windows平台上使用bin\windows\而不是bin/，并将脚本扩展名更改为.bat。

 第一步：下载代码

 下载
  1.1.0版本并解压缩它。

1 2	> tar -xzf kafka_2.11-1.1.0.tgz > cd kafka_2.11-1.1.0

 第二步：启动服务器

 Kafka使用
 ZooKeeper，
 因此如果您还没有ZooKeeper服务器，您需要首先启动ZooKeeper服务器。您可以使用与kafka打包在一起的便捷脚本来获得快速且简单的单节点ZooKeeper实例。

      > bin/zookeeper-server-start.sh config/zookeeper.properties
     
      [2013-04-22 15:01:37,495] INFO Reading configuration from: config/zookeeper.properties (org.apache.zookeeper.server.quorum.QuorumPeerConfig)
     
      ...

 启动Kafka服务器

      > bin/kafka-server-start.sh config/server.properties
     
      [2013-04-22 15:01:47,028] INFO Verifying properties (kafka.utils.VerifiableProperties)
     
      [2013-04-22 15:01:47,051] INFO Property socket.send.buffer.bytes is overridden to 1048576 (kafka.utils.VerifiableProperties)
     
      ...

 第三步：创建一个主题

 用一个分区和一个副本创建一个名为“test”的主题：

1	> bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test

 运行list topic命令，查看该主题

1 2	> bin/kafka-topics.sh --list --zookeeper localhost:2181 test

 或者，也可以将代理配置为在发布不存在的主题时自动创建主题，而不是手动创建主题。

 第四步：发送一些测试消息

 Kafka带有一个命令行客户端，它将从文件或标准输入中获取输入，并将其作为消息发送到Kafka集群。默认情况下，每行将作为单独的消息发送。

 运行生产者，然后在控制台中输入几条消息发送到服务器。

      > bin/kafka-console-producer.sh --broker-list localhost:9092 --topic 
      test
     
      This is a message
     
      This is another message

 第五步：启动消费者

 kafka也有一个命令行消费者，将消息转储到标准输出。

      > bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic 
      test
       
      --from-beginning
     
      This is a message
     
      This is another message

 如果您将上述每个命令都在不同的终端中运行，那么您现在应该能够将消息键入生产者终端，并将它们显示在消费者终端中。

 所有的命令行工具都有其他选项; 在没有参数的情况下运行该命令将显示更详细地记录它们的使用信息。

 第六步：设置多代理群集

 到目前为止，我们一直在与一名经纪人竞争，但这并不好玩。对于Kafka而言，单一经纪人只是一个规模较大的集群，因此除了启动几个经纪人实例之外，没有太大的变化。但为了获得它的感觉，让我们将集群扩展为三个节点（全部仍在我们的本地机器上）。

 首先我们为每个代理创建一个配置文件（在Windows上使用该copy命令）：

1 2	> cp config/server.properties config/server-1.properties > cp config/server.properties config/server-2.properties

 编辑这些新的配置文件并设置下列属性

 config/server-1.properties:

     broker.id=1

     listeners=
 PLAINTEXT://:9093

     log.dir=/tmp/kafka-logs-1

 config/server-2.properties:

     broker.id=2

     listeners=
 PLAINTEXT://:9094

     log.dir=/tmp/kafka-logs-2

 该broker.id属性是群集中每个节点的唯一且永久的名称。必须覆盖端口和日志目录，因为在同一台机器上运行这些端口和日志目录，并且希望让所有代理都试图在同一个端口注册或覆盖彼此的数据。

 现在已经有Zookeeper和单个节点，所以我们只需要启动两个新节点：

      > bin/kafka-server-start.sh config/server-1.properties &
     
      ...
     
      > bin/kafka-server-start.sh config/server-2.properties &
     
      ...

 现在创建一个复制因子为3的新主题：

1	> bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 3 --partitions 1 --topic my-replicated-topic

 查看运行“描述主题”命令：

      > bin/kafka-topics.sh --describe --zookeeper localhost:2181 --topic my-replicated-topic
     
      Topic:my-replicated-topic   PartitionCount:1    ReplicationFactor:3 Configs:
     
          Topic: my-replicated-topic  Partition: 0    Leader: 1   Replicas: 1,2,0 Isr: 1,2,0

 这里是对输出的解释。第一行给出了所有分区的摘要，每个附加行给出了有关一个分区的信息。由于我们只有一个分区，所以只有一行。

 ① “leader”是负责给定分区的所有读写操作的节点。每个节点将成为分区随机选择部分的领导者。

 ② “replicas”(副本)是复制此分区的日志的节点列表，无论他们是领导者还是他们现在都活着。

 ③ “isr”是一组“同步”副本。这是复制品列表的子集，目前活着并被引导到领导者身边。

 可以使用相同的命令查询之前创建的test主题的位置

      > bin/kafka-topics.sh --describe --zookeeper localhost:2181 --topic 
      test
     
      Topic:
      test
        
      PartitionCount:1    ReplicationFactor:1 Configs:
     
          Topic: 
      test
       
      Partition: 0    Leader: 0   Replicas: 0 Isr: 0

 这里看到对比，test主题没有副本，并且在服务器0上。

 发布一些消息给新创建的主题

      > bin/kafka-console-producer.sh --broker-list localhost:9092 --topic my-replicated-topic
     
      ...
     
      my 
      test
       
      message 1
     
      my 
      test
       
      message 2
     
      ^C

 现在让我们使用这些消息：

      > bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --from-beginning --topic my-replicated-topic
     
      ...
     
      my 
      test
       
      message 1
     
      my 
      test
       
      message 2
     
      ^C

 现在我们来测试容错。经纪人1充当领导者，所以让我们杀了它：

      > 
      ps
       
      aux | 
      grep
       
      server-1.properties
     
      7564 ttys002    0:15.91 /System/Library/Frameworks/JavaVM.framework/Versions/1.8/Home/bin/java...
     
      > 
      kill
       
      -9 7564

 在Windows上使用：

      > wmic process where 
      "caption = 'java.exe' and commandline like '%server-1.properties%'"
       
      get processid
     
      ProcessId
     
      6016
     
      > taskkill /pid
       
      6016 /f

 领导层已切换到其中一个从属节点，并且节点1不再处于同步副本集中：

      > bin/kafka-topics.sh --describe --zookeeper localhost:2181 --topic my-replicated-topic
     
      Topic:my-replicated-topic   PartitionCount:1    ReplicationFactor:3 Configs:
     
          Topic: my-replicated-topic  Partition: 0    Leader: 2   Replicas: 1,2,0 Isr: 2,0

 但是即使原先写入的领导者失败，消息仍然可用于消费：

      > bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --from-beginning --topic my-replicated-topic
     
      ...
     
      my 
      test
       
      message 1
     
      my 
      test
       
      message 2
     
      ^C

 第七步：使用Kafka Connect导入/导出数据

 从控制台写入数据并将其写回控制台是一个方便的起点，但您可能需要使用其他来源的数据或将数据从Kafka导出到其他系统。对于许多系统，您可以使用Kafka Connect导入或导出数据，而不是编写自定义集成代码。

 Kafka Connect是Kafka附带的一个工具，可以将数据导入和导出到Kafka。它是一个可扩展的工具，运行 连接器，实现与外部系统交互的自定义​​逻辑。在这个快速入门中，我们将看到如何使用简单的连接器运行Kafka Connect，这些连接器将数据从文件导入Kafka主题，并将数据从Kafka主题导出到文件。

 首选，创建一些数据文档开始测试：

1	> echo -e "foo\nbar" > test .txt

 或在Windows上：

1 2	> echo foo> test .txt > echo bar>> test .txt

 接下来，我们将启动两个以独立模式运行的连接器，这意味着它们将在单个本地专用进程中运行。我们提供三个配置文件作为参数。首先是Kafka Connect过程的配置，包含常见的配置，例如要连接的Kafka代理和数据的序列化格式。其余的配置文件都指定了要创建的连接器。这些文件包括唯一的连接器名称，要实例化的连接器类以及连接器所需的任何其他配置。

1	> bin/connect-standalone.sh config/connect-standalone.properties config/connect-file-source.properties config/connect-file-sink.properties

 Kafka附带的这些示例配置文件使用您之前启动的默认本地群集配置，并创建两个连接器：第一个源连接器从输入文件中读取行，并将每个连接生成为Kafka主题，第二个连接器为连接器连接器它读取来自Kafka主题的消息，并在输出文件中将每个消息生成为一行。

 在启动过程中，您会看到许多日志消息，包括一些指示连接器正在实例化的消息。一旦Kafka Connect过程开始，源连接器应该开始从test.txt主题读取行并将其生成为主题connect-test，并且宿连接器应该开始读取主题中的消息connect-test 并将它们写入文件test.sink.txt。我们可以通过检查输出文件的内容来验证通过整个管道传输的数据：

      > 
      more
       
      test
      .sink.txt
     
      foo
     
      bar

 请注意，数据存储在Kafka主题中connect-test，因此我们也可以运行控制台使用者来查看主题中的数据（或使用自定义使用者代码来处理它）：

      > bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic connect-
      test
       
      --from-beginning
     

      {
      "schema"
      :{
      "type"
      :
      "string"
      ,
      "optional"
      :
      false
      },
      "payload"
      :
      "foo"
      }
     

      {
      "schema"
      :{
      "type"
      :
      "string"
      ,
      "optional"
      :
      false
      },
      "payload"
      :
      "bar"
      }
     

      ...
     

 连接器继续处理数据，所以可以将数据添加到文件中，并看到它在整个管道中移动：

1	> echo Another line>> test .txt

 看到该行出现在控制台消费者输出和接收器文件中。

 第八步：使用Kafka Stream处理数据

 Kafka Streams是用于构建关键任务实时应用程序和微服务的客户端库，输入和/或输出数据存储在Kafka集群中。Kafka Streams结合了客户端编写和部署标准Java和Scala应用程序的简单性以及Kafka服务器端集群技术的优势，使这些应用程序具有高度可伸缩性，弹性，容错性，分布式等特性。本
 快速入门示例将演示如何运行在此库中编码的流式应用程序。