kafka笔记(一)


 

每个分区是一段提交日志,有偏移量。队列里的topic可配置过期时间,

consumer控制读取的位置offsetconsumer之间互不影响。分区是分布式的,所有请求由leader处理,如果配置了副本数,则有对应的follwer

 

consumer group:实现了消息队列和广播。

topic会发到每个consumer group的其中一个consumer实例。

相对于传统publish-subscribe机制来说,kafkasubscribe变成集群。

 


 

kafka保证消息的顺序。每个分区只被consumer group的一个consumer消费,保证了顺序。

 

应用领域:

消息,网站行为跟踪,度量,日志聚合,流处理,事件源,提交日志。

 

环境配置:

 

1、下载安装包,解压。

2、编辑相关配置文件,启动zk:

   bin/zookeeper-server-start.shconfig/zookeeper.properties

      启动kafkaserver

   bin/kafka-server-start.shconfig/server.properties

3、创建主题:

   bin/kafka-topics.sh--create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --   topictest

      主题可手动创建,也可配置broker自动创建。

4、测试:

bin/kafka-console-producer.sh--broker-list localhost:9092 --topic test

bin/kafka-console-consumer.sh--zookeeper localhost:2181 --topic test --from-beginning

5、配置集群:

   拷贝server.properties,修改,用其启动kafkaserver。可以在单机模拟。

 

手动写producer测试:

启动kafkaserver

启动consumer:kafka-console-consumer.sh--zookeeper xxx:2181 --topic page_visits

 

java -cp./testkafka-0.0.1-SNAPSHOT-jar-with-dependencies.jar com.cuirong.kafka.test.TestProducer 10

 (maven 执行assembly打包所有jar包)

 

手动写consumer测试:

多数应用使用高级API,若涉及到例如:重启consumer时设置初始化偏移量时必须使用低级API

 

高级API隐藏了很多细节,存储zookeeper指定分区最后的偏移量,偏移量是基于consumer group的。

Group name是全局的,两个相同名字不同业务逻辑的group consumer同时运行会有问题。

多线程模式,如果每个线程处理多个分区,不能保证顺序。

consumer高级api

 

java-cp ./testkafka-0.0.1-SNAPSHOT-jar-with-dependencies.jarcom.cuirong.kafka.test.ConsumerGroupExample xxx:2181group1 page_visits 2

 

 

consumer低级api

需求:

1、读一条消息多次

2、读某topic某分区的部分数据

3、管理事务保证消息只被处理一次

 

要做的事:

1、详细控制offset

2、指定topic的分区的lead broker

3、手动切换broker

 

步骤:

1、找出活动的broker,对应topic 的分区的leader broker

2、决定复制broker

3、数据请求定义

4、获取数据

5leader改变时的操作。

 

java -cp./testkafka-0.0.1-SNAPSHOT-jar-with-dependencies.jarcom.cuirong.kafka.test.SimpleExample  10page_visits 0 0 9092

### 尚硅谷 Kafka 学习笔记 #### 创建 Kafka 生产者并发送消息 为了创建个简单的 Kafka 生产者并向指定主题发送消息,在命令行工具中可以执行如下操作。通过 `bin/kafka-console-producer.sh` 脚本启动生产者客户端,并指定了引导服务器地址以及目标主题名称[^1]。 ```bash [atguigu@hadoop102 kafka]$ bin/kafka-console-producer.sh --bootstrap-server hadoop102:9092 --topic first > hello ``` 此命令允许用户手动输入要发布的消息内容,每条新消息以回车键结束提交给集群处理。 #### 修改消费者配置文件设置分组ID 对于希望自定义消费逻辑的应用程序来说,调整消费者的配置参数是非常重要的步。具体而言,可以通过编辑 `/opt/module/kafka/config/consumer.properties` 文件内的 `group.id` 属性来设定唯的消费者组标识符[^4]。 ```properties [atguigu@hadoop103 config]$ vi consumer.properties group.id=atguigu ``` 这里展示了如何更改默认值为特定字符串(如 "atguigu"),从而确保不同实例之间不会相互干扰。 #### 实现自定义分区器 当业务需求涉及到更复杂的路由策略时,则可能需要用到自定义的 Partitioner 类型。下面给出了种基于关键字匹配决定消息所属分区的方法示例代码片段[^5]: ```java public class MyPartitioner implements Partitioner { @Override public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) { String inputValue = (value != null && !"".equals(value)) ? value.toString() : ""; if ("hello".contains(inputValue)){ return 1; } else{ return 0; } } @Override public void close(){} @Override public void configure(Map<String, ?> configs){} } ``` 这段 Java 程序实现了 `Partitioner` 接口,并覆盖了其抽象方法 `partition()` 来判断传入的消息体是否包含预设关键词 `"hello"`;如果条件成立则返回整数 `1` 表明该记录应分配至编号为 `1` 的物理分区上,反之亦然。 #### 关于日志与数据存储机制的理解 值得注意的是,Kafka 中的日志目录实际上是指向实际保存二进制编码后的消息集合的位置。由于这些对象经过序列化过程变得难以直观理解,因此建议开发者熟悉相关概念以便更好地管理和维护系统性能[^2]。 另外,关于偏移量 Offset 的管理方式也值得深入探讨。每个存储单元都会依据首次出现位置获得独无二的名字格式——即形似 `xxxxxx.kafka` 这样的文件名模式,其中 x 可能代表任意长度但始终递增的串数字字符[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值