Flink Kafka Producer 自定义分区策略实现

最新推荐文章于 2024-04-09 09:44:31 发布

程序才子

最新推荐文章于 2024-04-09 09:44:31 发布

阅读量412

点赞数 1

CC 4.0 BY-SA版权

文章标签： flink kafka 大数据

本文链接：https://blog.youkuaiyun.com/TechWhiz/article/details/132369904

大数据专栏收录该内容

182 篇文章 ¥59.90 ¥99.00

订阅专栏

本文介绍了如何在Flink中实现自定义Kafka分区策略，通过编写实现KafkaPartitioner接口的分区器，根据用户ID进行哈希计算，确保交易记录均匀分布到Kafka分区。示例代码展示了如何在Flink应用程序中使用自定义分区器，以满足特定的数据分发需求。

Flink Kafka Producer 自定义分区策略实现

在大数据处理中，Apache Flink 是一个流处理引擎，而 Apache Kafka 是一个分布式流数据平台。Flink 提供了与 Kafka 集成的功能，允许用户使用 Flink Kafka Producer 将数据发送到 Kafka 主题。默认情况下，Flink Kafka Producer 使用 Kafka 的默认分区策略，但有时候我们可能需要自定义分区策略来更好地控制数据的分发。

本文将介绍如何使用 Flink Kafka Producer 实现自定义分区策略。我们将通过编写一个自定义的分区器来演示这个过程。假设我们有一个数据集，其中包含用户的交易记录，并且我们希望按照用户的 ID 将交易记录分发到不同的 Kafka 分区中。

首先，我们需要创建一个实现 KafkaPartitioner 接口的自定义分区器。下面是一个示例：

import org.apache.flink.streaming.connectors

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

程序才子

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

Flink Kafka Producer分区策略在大数据环境下的应用

DevEnigma的博客

09-17

210

Flink Kafka Producer是Flink提供的一个连接Kafka的组件，并且支持多种分区策略。本文将介绍Flink Kafka Producer分区策略的相关概念，并给出相应的源代码实现。本文介绍了Flink Kafka Producer分区策略的相关概念，并给出了一个使用RoundRobinPartitioner分区策略的代码示例。在使用Flink Kafka Producer发送消息时，分区策略决定了消息被发送到哪个Kafka分区上。Flink Kafka Producer支持的分区策略。

【Flink】Flink kafka producer 分区策略 (flink写入数据不均匀与数据写入分区无数据 )

九师兄

07-13

3104

思考这个问题，主要原因是，我们写了一个监控Kafka分区是否倾斜的程序，然后程序监控出来一个数据，写入倾斜的问题。如下图可以看到某个kafka的3个分区一直没有数据写入。然后我就去找看看FLink是如何写入的。可以看到我们的程序一般调用这个函数}这里可以看到默认是使用分区器。这个分区器的继承体系如下。...

参与评论您还未登录，请先登录后发表或查看评论

【Kafka】flinkProducer kafka分区策略及kafka 默认分区策略

Mrerlou的博客

07-04

3930

最近在学习读写，突然想到如果生产消息到，那么这条消息如何确定发往那个分区。顺便也回顾下本身一个默认分区策略和生产策略这里整理并记录下。这里我们使用来将数据写入到 Kafka，那么KafkaSink 是如何确定一条消息要发送到那个分区？默认的策略是什么？可以看到只有这一个默认的实现。相关的分区策略代码如下：可以看出是根据运行子任务的并行度进行分区数的取余写入的。计算公式如下。 2. null 当我们代码指定分区策略为时，那么肯定就会选用Kafka 本身默认的分区策略。我

FlinkKafkaProducer默认和自定义分区策略

长臂人猿的博客

06-02

3419

我们经常关注的是Kafka消费者的消费策略，但是又会在某些特殊情况下要求自定义生产者的分区策略：如按序消费：将所有数据写入一个分区中。又或者默认的策略满足我们的业务需求。值得一提的是，FlinkKafkaProducer（这里版本13.0.2，更早期的版本如1.10.0中是带版本号的FlinkKafkaProducer10等），和Kafka（这里版本kafka_2.11 1.1.1）的api中的KafkaProducer写入分区策略并不相同。即Flink写kafka使用的机制与原生接口的写入方式是有差别

【Flink读写外部系统】Flink自定义kafka分区并输出

大白

09-25

1264

Flink数据发送到kafka,并自定义Kafka分区; 注意这里是通过FlinkkafkaProducer将数据发送到kafka；跟下面的检查点是不一样的 FlinkkafkaProducer下的消费保障总共分为3级别 val kafkaSink = new FlinkKafkaProducer[ResultDt]("topicName", kafkaPro, FlinkKafkaProducer.Semantic.EXACTLY_ONCE)

【源码解读】Flink-Kafka连接器自定义序列器和分区器

欢迎来到李奇峰的数据世界

01-19

3352

通过阅读源码得知，目前Flink官方不推荐通过分区器来进行数据的分区操作，可以通过序列化器实现。同时KeyedSerializationSchema分区器已经不推荐使用，推荐使用KafkaSerializationSchema

Flink 1.11.1 FlinkKafkaProducer写入topic0分区问题记录

HugeBitter的博客

07-06

687

Flink 1.11.1 FlinkKafkaProducer写入topic0分区问题记录问题记录：问题记录： flink版本：1.11.1 使用FlinkKafkaProducer往下游发送数据，代码如下： Properties props = new Properties(); props.setProperty(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,"kafkatest:9092"); FlinkKafka

Flink Sink Kafka 自定义Topic与自定义分区

znmdwzy的博客

07-03

3776

Flink Sink Kafka 自定义Topic与自定义分区需求背景： Flink处理完成数据后，需要将消息传给Kafka，为了避免数据倾斜，根据消息的主键进行Hash取模，自定义输出到对应的Topic，为了提升从Kafka读取消息的速度，将相同主键的消息存放到同一分区。解决方案： Flink-Kafka连接器中有一个可以传递序列化类和分区器的构造方法，我们可以重写这两个方法实现自定义Topic和自定义分区，具体方法如下： @Deprecated public FlinkKafkaProducer0

【Flink】Flink_Kakfa自定义输出分区

大白

05-16

945

在我们将消息写入kafka的topic时，我们可以通过FlinkkafkaPartitioner指定写入topic的哪个分区。在不指定的情况下，默认的分区器会将每个数据任务映射到一个单独的kafka分区中，即单个任务的所有记录都会发往同一分区。如果任务数多余分区数，则每个分区可能会包含多个任务发来的记录。而如果任务数小于分区数，则默认配置会导致有些分区收不到数据。若此时恰好有使用事件时间的Flink应用消费了该Topic，那么可能会导致问题；导致问题的原因 Flink_Kafka为了利用Ka.

flink:自定义数据分区

amadeus_liu2的博客

03-05

1198

rebalance用round robbin模式将数据分配到下游的子任务。partitionCustom: 自定义数据分区。shuffle随机地将数据分配到下游的子任务。global把所有的数据都分配到一个分区。

Kafka 实战 - Kafka 自定义分区器

qq_33240556的博客

04-09

837

默认情况下，Kafka提供了一个基于哈希或轮询的分区器，但如果业务需求涉及到更复杂的分区策略，如确保消息顺序、均匀分布特定类型的消息或者根据特定键值进行定制化分区，就需要实现自定义分区器。：对于需要保证消息顺序的场景，比如事务处理或日志追踪，可以自定义分区器确保具有相同键的消息始终发送到同一个分区，因为Kafka在同一分区内的消息是严格有序的。：确保分区器在多节点环境中的一致性，即相同的键在任何生产者实例上都应该被分配到相同的分区，以维护消息的正确排序和消费者预期。方法中实现具体的分区逻辑。

Flink-SQL upset-Kafka自定义分区器

qq_39639186的博客

12-13

2808

Flink-SQL upset-Kafka自定义分区器

flink写入kafka之自定义分区器

qq_24124009的博客

04-24

6179

直入正题，flink写入kafka根据某个数据中的字段做分区发送到kafka的指定分区，如果你在sink中每次要手动写producer，那么你可以略过此文章接着上篇文章flink写入kafka之默认序列化类和默认分区器直接上代码 /*自定义分区*/ @SuppressWarnings("unchecked") FlinkKafkaProducer010<String> fl...

Flink 输出到kafka 自定义分区遇到问题，请教大家

qq_31866793的博客

10-21

512

简单说一下，scala代码添加了自定义分区器，一直报错对应的构造器，不知道哪里写错 java代码是没问题的：

flink - kafka producer 实现多分区发送数据到consumer，进行消费

weixin_38472282的博客

03-28

2173

先建立好分区的topic kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 3 --topic flinkwrite5 建立分区为3 ，并行度为3 的producer 2.然后在flink中连接这个topic treamExecutionEnvironment...

【Flink】flink并行度与kafka分区(partition)设置