Kafka入门

本文介绍了Kafka这一分布式流处理平台的基本概念,包括其作为发布订阅系统的特性、数据组织方式及客户端使用方法,并通过示例展示了如何搭建环境并实现简单的消息生产和消费。

Kafka是最初由Linkedln开发的,基于发布与订阅的消息系统。它一般被称为”分布式提交日志”或者“分布式流平台”。Kafka的数据是按照一定的顺序持久化保存的,可以按需读取。此外,Kafka的数据分布在整个系统里,具备数据故障保护和性能伸缩能力。

Kafka的数据单元被称为“消息”,它相当于数据库里的一个“数据行”或一条“记录”。消息由字节数组组成。

Kafka的消息通过“主题”进行分类。主题好比数据库里的“表”。主题可以被分为若干个分区,一个分区就是一个提交日志。消息以追加的方式写入分区,然后以先入先出的顺序读取。要注意的是,由于一个主题分为几个分区,因此无法在整个主题范围内保证消息的顺序,但可以保证消息在单个分区内的顺序。
这里写图片描述

Kafka的客户端就是Kafka系统的用户,他们分为两种类型:生产者和消费者

消费者是消费者群组的一部分,也就是说,会有一个或者多个消费者共同读取一个主题。群组保证每个分区只能被一个消费者读取。如下图所示:
这里写图片描述

一个独立的Kafka服务器被称为broker。broker接收来自生产者的消息,为消息设置偏移量,并提交消息到磁盘保存。

下面是一个Kafka生产者和消费者的入门例子:

1.首先,我们从http://kafka.apache.org/downloads,下载Kafka的包,解压后进入Kafka的目录,通过以下命令启动Kafka服务端:./kafka-server-start.sh -daemon ./../config/server.properties

如果是通过Maven来管理的话,添加Kafka的依赖包:

   <dependency>
      <groupId>org.apache.kafka</groupId>
      <artifactId>kafka_2.12</artifactId>
      <version>0.10.2.1</version>
   </dependency>

2.下面通过生产者客户端,向Kafka服务端发送消息:


import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.Producer;
import org.apache.kafka.clients.producer.ProducerRecord;
import org.apache.kafka.clients.producer.RecordMetadata;

import java.util.Properties;
import java.util.concurrent.Future;

/**
 * Created by CvShrimp on 2018/1/9.
 */
public class Producer {
    public static void main(String[] args) {
        Properties kafkaProps = new Properties();
        // Kafka服务器IP地址加端口号,默认为9092
        kafkaProps.put("bootstrap.servers", "192.168.186.128:9092");
        // key的序列化类,这里选择字符串的StringSerializer
        kafkaProps.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        // value的序列化类,这里选择字符串的StringSerializer
        kafkaProps.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        // 第一个参数为主题名,第二个参数为key的值,第三个为value的值
        ProducerRecord<String, String> record =
                new ProducerRecord<String, String>("CustomerCountry", "Precision Products", "France");

        Producer producer = new KafkaProducer<String, String>(kafkaProps);
        try {
            Future future = producer.send(record);
            RecordMetadata recordMetadata = (RecordMetadata) future.get();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

3.下面通过消费者客户端,从Kafka服务端获取刚才的数据:


import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;

import java.util.Collections;
import java.util.HashMap;
import java.util.Map;
import java.util.Properties;

/**
 * Created by wukn on 2018/1/11.
 */
public class Consumer {
    public static void main(String[] args) {
        Properties kafkaProps = new Properties();
        kafkaProps.put("bootstrap.servers", "192.168.186.128:9092");
        kafkaProps.put("group.id", "CountryCounter");
        // key的反序列化类,这里选择字符串的StringDeserializer
        kafkaProps.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        // value的反序列化类,这里选择字符串的StringDeserializer
        kafkaProps.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

        KafkaConsumer<String, String> consumer = new KafkaConsumer<String, String>(kafkaProps);
        // CustomerCountry为生产者刚才提交到Kafka服务器的主题名
        consumer.subscribe(Collections.singletonList("CustomerCountry"));

        Map<String, Integer> cusCountryMap = new HashMap<String, Integer>();
        try {
            while (true) {
                // 获取数据
                ConsumerRecords<String, String> records = consumer.poll(100);
                for (ConsumerRecord<String, String> record : records) {
                    int updatedCount = 1;
                    if (cusCountryMap.containsKey(record.value())) {
                        updatedCount = cusCountryMap.get(record.value()) + 1;
                    }
                    cusCountryMap.put(record.value(), updatedCount);

                    System.out.println(record.value());
                    consumer.commitAsync();
                }
            }
        } catch (Exception e) {

        } finally {
            try {
                consumer.commitSync();
            } finally {
                consumer.close();
            }
        }
    }
}
### Kafka 基本概念 #### Topic (主题) Kafka 处理的消息被划分为不同类别,这些类别被称为主题。每个主题可以视为一类消息流,在生产者向 Kafka 发送消息时会指定该消息所属的主题[^2]。 #### Broker (代理) Broker 是 Kafka 集群中的节点,负责接收来自生产者的记录并持久化到磁盘中。客户端(生产和消费者)通过与 broker 进行交互来完成数据的写入和读取操作。通常情况下,一个典型的 Kafka 部署会有多个 broker 组成集群以提高系统的可靠性和性能。 #### Partition (分区) 为了提升并发度和支持大规模的数据存储,单个 topic 可能会被分割成若干个 partition。Partition 是有序不可变的日志序列,每条记录都会根据其 key 被分配给特定的一个或几个 partition 中去。这种设计使得即使当某个 partition 出现故障时也不会影响其他 partitions 的正常工作. #### Message (消息) Message 是 Kafka 中最小的数据单元,包含了键(key),值(value) 和时间戳(timestamps)等元信息字段。所有的 message 都会被追加到对应 topic 下面相应的 partition 尾部形成日志文件的一部分. #### Producer (生产者) Producer 客户端应用程序用于将新纪录发布至一个或多个 topics 上。开发者可以通过编程接口定义如何选择目标 topic, 序列化 payload 数据格式等功能特性. ```java Properties props = new Properties(); props.put("bootstrap.servers", "localhost:9092"); props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer"); props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer"); Producer<String, String> producer = new KafkaProducer<>(props); producer.send(new ProducerRecord<>("my-topic", "key1", "value1")); producer.close(); ``` #### Consumer (消费者) Consumer 则是从指定 topic 订阅并拉取消息的应用程序实例。它们可以从任意 offset 开始消费,并支持批量获取多条 records 提升效率。此外还提供了 consumer group 机制允许多个 consumers 协同处理同一份输入流而不会重复读取相同的内容. ```java Properties props = new Properties(); props.put("bootstrap.servers", "localhost:9092"); props.put("group.id", "test-group"); props.put("enable.auto.commit", "true"); props.put("auto.commit.interval.ms", "1000"); props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer"); props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer"); KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props); consumer.subscribe(Collections.singletonList("my-topic")); while (true) { ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100)); for (ConsumerRecord<String, String> record : records) System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value()); } ``` #### Zookeeper 尽管最新版本的 Apache Kafka 已经减少了对 ZooKeeper 的依赖程度,但在传统部署模式下仍然需要借助于后者来进行集群成员管理和服务发现等工作。ZooKeeper 提供了一种集中式的配置管理和协调服务框架,对于维持整个 Kafka 系统的一致性至关重要. ### 使用方法 要开始使用 Kafka ,首先要确保已正确安装并启动了 Kafka 服务及其所依赖的服务如 ZooKeeper 。接着可以根据官方文档指导设置好必要的环境变量以及网络参数以便后续开发测试之需。之后就可以利用上述提到的各种 API 接口编写自己的生产者/消费者逻辑代码实现业务需求了[^1].
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值