记录一次kafka -＞ flink无数据的坑

最新推荐文章于 2024-05-29 00:32:03 发布

原创最新推荐文章于 2024-05-29 00:32:03 发布 · 923 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#kafka #flink #实时大数据

大数据专栏收录该内容

19 篇文章

订阅专栏

博客介绍了per job flink on yarn模式下，Kafka到Flink连接时，Flink TM日志显示协调器死亡的问题。经分析是无法找到IP，解决方案是将yarn节点IP与Kafka节点IP配置到hosts中。

模式：per job flink on yarn

kafka 到 flink ,在flink TM的Logs中：

INFO org.apache.kafka.Clients.consumer.internals.AbstractCoordinator - Marking the coordinator ip:port (id : XXX rack: XXX) dead for group XXX

原因分析：

无法找到ip

解决方案：

配置hosts问题，将yarn节点ip与kafka节点ip配到hosts中即可。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小迷糊同学

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
4
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

4、mysql--＞kafka--＞mysql

02-13

717

实现mysql数据通过kafka消息队列，异步传输到mysql库表的全过程代码实现，包括kafka环境搭建，代码运行效果展示。全部使用Flink cdc最新版本实现，虽然代码精简，但确属全网最全，最完整的案例，没有之一。

CDC 实时入湖方案：MySQL＞Flink CDC＞Kafka ＆ Schema Registry＞Hudi ( Flink Connector )

Laurence的技术博客

02-20

2609

本方案的技术链路为：使用 Flink CDC 将 MySQL 的 CDC 数据（Avro 格式）接入到 Kafka ，然后通过 Flink Hudi Connector 将摄取的 CDC 数据写入到 Hudi 表中。整个链路由 Confluent Schema Registry 控制 Schema 的变更。本文是《CDC 实时入湖方案：MySQL > Flink CDC > Kafka > Hudi》的增强版，在打通从源端数据库到 Hudi 表的完整链路的前提下，还额外做了如下两项工作：

4 条评论您还未登录，请先登录后发表或查看评论

4 条评论

water___Wang 2021.02.21
学到了学到了
- 小迷糊同学回复water___Wang 2021.02.22
  [face]monkey2:004.png[/face]

不吃西红柿丶 2020.12.28
非常有用，谢谢大佬~[face]monkey2:062.png[/face]
- 小迷糊同学回复不吃西红柿丶 2020.12.31
  不客气，很高兴可以帮到大家！

【Flink Kafka】Flink程序连接Kafka没输出也不报错

HR的博客

03-25

2851

Flink程序连接Kafka没输出也不报错本人最近在使用Kafka作为数据源输出数据到Flink时遇到一个问题，那就是既没有结果输出，也没有报错代码如下 package Source import org.apache.flink.api.common.serialization.SimpleStringSchema import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment import org.apache.flin

flink连上了Kafka 却接收不到数据

a4736123的博客

05-18

3174

** flink连上了Kafka 却接收不到数据 ** 首先在 kafka的 config/server.properties 里增加注意是自己的IP地址 ############################# Socket Server Settings ############################# listeners=PLAINTEXT://192.168.149.50:9092 host.name=192.168.149.50 然后在window地址里修改正确的IP地址注意之

springboot——ActiveMQ

WannaRunning的博客

11-22

454

JMS中有两种消息模型：一种是点对点（point to point， queue），另一种是发布/订阅（publish/subscribe，topic）。通俗地讲，这两者之间的别就是一条消息被发布后是否能被消费者重复消费。点对点：Queue 生产者生产一条消息发送到queue中，某个在坚挺的消费者从queue中取出，消费消息，并告知MQ服务这条消息被消费了，queue中不再有存储，至此...

kafka接受不到数据

一无所知的世界，走下去才有惊喜。让我们永远相信美好的事情即将发生，成为比昨天更优秀的自己。

08-17

4916

kafka接受不到数据

flink读不到kafka数据问题

微电子学与固体电子学-俞驰

06-26

4521

[1]搭建集群 [2]测试kafka集群没问题后, 根据[3]中开始用flink消费kafka数据,发现啥也么有调试办法如下: ①去$KAFKA/logs下面看了下,是有相关主题的文件夹生成的. ②/kafka-console-consumer.sh --bootstrap-server Desktop:9091,Laptop:9092,Laptop:9093 --topic test-0921 依然没有数据 ③./kafka-console-consumer.sh --bootstrap.

Kafka-Flink整合原理与代码实例讲解

AI天才研究院

05-29

357

Apache Kafka是一个分布式的流式处理平台,最初由LinkedIn公司开发,后来被顶级开源项目Apache软件基金会所收录。它被广泛应用于大数据领域,用于构建实时数据管道和流应用程序。Kafka的核心设计理念是为了实现高吞吐量、低延迟、高可扩展性和持久化的分布式日志服务。Kafka采用了分区(Partition)和复制(Replication)的设计,实现了高度的可靠性和可伸缩性。

CDC 实时入湖方案：MySQL＞Kafka Connect＞Kafka ＆ Schema Registry＞Hudi ( Flink Connector )

Laurence的技术博客

02-01

2436

本方案的技术链路为：使用 Kafka Connect 的 Debezium MySQL Source Connector 将 MySQL 的 CDC 数据（Avro 格式）接入到 Kafka 之后，通过 Flink 读取并解析这些 CDC 数据，其中，数据是以 Confluent 的 Avro 格式存储的，也就是说，Avro 格式的数据在写入到 Kafka 以及从 Kafka 读取时，都需要和 Confluent Schema Registry 进行交互，从而获取 Schema 信息，消息经 Fli

flink学习(一) —Flink-Kafka-Connector基本描述

leileibest_437147623的专栏

10-25

2034

一、flink-connector-kafka 功能简介 flink Kafka Connector 是 flink 内置的Kafka连接器，包含了从topic读取数据的Flink Kafka Consumer 和向topic写入数据的flink kafka producer，除了基本功能意外还提供了基于 checkpoint 机制提供了完美的容错能力。本片文章主要是Fli...

Flink 读取 Kafka 消息写入 Hudi 表无报错但没有写入任何记录的解决方法

Laurence的技术博客

01-31

1357

本问题发生的场景是：使用 Kafka Connect 的 Debezium MySQL Source Connector 将 MySQL 的 CDC 数据（Confluent Avro 格式）接入到 Kafka 之后，通过 Flink 读取并解析这些 CDC 数据，然后写入到 Hudi 表中。在测试过程中发现：启动写入作业后，Hudi 表中迟迟没有数据写入，而 Flink 作业也没有报错。实际上，这应该是一比较常见的问题，我们的测试环境并没有特别的配置，大多数初次进行集成的开发者，大概率都会遇到这一问题，

使用flink table api 从kafka中读取数据,kafka数据无法读取错误

搬砖的鱼的博客

12-22

1116

kafka正常启动，flink无法消费，也不报错解决办法：配置属性为从所有分区的最新偏移量开始读取startFromLatest() package com.atguigu.apitest.tabletest /*import org.apache.flink.api.scala.ExecutionEnvironment import org.apache.flink.streaming.api.scala._ import org.apache.flink.table.api.{DataTypes,

flink消费kafka历史数据开窗计算数据丢失问题追踪记录

Sword_Zhao的博客

04-13

2383

flink消费kafka数据开窗丢失数据问题

flink写入到kafka，只写入指定分区问题排查

wppwpp1的专栏

03-10

3937

背景： flink的datastream部署到线上时，发现数据只能写入到kafka的一些分区，其他分区没有数据写入。当把flink的并行度设置大于等于kafka的分区数时，kafka的分区都能写入数据。于是研究了一下源码。 FlinkFixedPartitioner源码： package org.apache.flink.streaming.connectors.kafka.partitioner; import org.apache.flink.annotation.PublicEvolving

【Flink】使用kafka-connector消费数据时看不到consumer-id等信息

一只皮皮熊

04-10

8400

文章目录问题复现初步结论源码分析KafkaConsumer实现FlinkKafkaConsumer实现一句话总结问题复现使用connecor消费数据的时候，我们./bin/kafka-consumer-groups.sh查看消费的情况时发现异常而使用kafka-client的时候，这些信息是能正常显示的初步结论 https://issues.apache.org/jira/brows...

Kafka 客户端、控制台和 Flink 无法消费数据的解决方案

2301_79366435的博客

09-17

691

确保将 “your_bootstrap_servers” 替换为实际的 Kafka 服务器地址，“your_consumer_group” 替换为您的消费者组，“your_topic” 替换为您要消费的主题。确保将 “your_bootstrap_servers” 替换为实际的 Kafka 服务器地址，“your_consumer_group” 替换为您的消费者组，“your_topic” 替换为您要消费的主题。例如，如果您的生产者发送的是字符串消息，则消费者的反序列化器也应该是字符串反序列化器。

flink 消费Kafka 空指针问题

weixin_40898246的博客

12-14

4327

flink 消费Kafka 空指针问题 error： 2021-12-02 10:51:55,644 WARN org.apache.flink.runtime.taskmanager.Task [] - Source: Custom Source (1/3)#4 (92d97e5b78862c632d32b272b843bf4b) switched from RUNNING to FAILED with failure cause: java.lang.NullPointerException a

Flink消费kafka出现空指针异常

南风知我意

06-30

1474

Flink消费kafka出现空指针异常

Kafka部分Partition中无数据导致Window不触发问题

淡定一生2333的博客

05-11

2162

业务上需要将同一个时间段的两种数据收集到一起做一些计算，这两种数据分别存在于Kafka的两个Topic中。计算逻辑是这样的：使用两个DataStream分别消费两个Topic中的数据，对两条流先分别设置WaterMark，然后union，接着进行keyBy操作，最后使用Window将同一个时间窗口中的两种数据汇聚在一起进行计算。但是发现程序无论是在本地运行还是在yarn-cluster模式下运行，只要并行度不为1，程序都不能正常执行。明明显示已经收到了数据，但是Window就是不触发： ...

有一个flink任务，其中的算子顺序为:Source -> Map -> Sink，每个算子的uid分别为：“kafka-source”，“my-map”，“doris-sink”；现在该flink任务需要重启，且算子之间的顺序发生变化，变为Source->Map->Filter->Sink，那在使用checkpoint恢复作业时，如何显式指定uid

最新发布

04-02

<think>好的，我现在需要回答用户在Flink中如何显式指定算子uid的问题，特别是在任务重启后算子顺序变化的情况下。用户之前的对话已经了解了uid和name的作用，现在需要具体指导如何在这种情况下正确配置uid以恢复checkpoint。首先，我需要回忆Flink中uid的作用。uid是用户定义的算子唯一标识符，用于状态恢复。当作业拓扑改变时，比如添加新的算子或调整顺序，Flink通过uid来匹配之前的状态。如果未正确设置uid，自动生成的uid可能改变，导致状态无法恢复。用户当前的场景是：原来的作业结构是Source -> Map -> Sink，每个算子都有指定的uid。现在重启后结构变为Source -> Map -> Filter -> Sink，需要调整uid配置以正确恢复状态。接下来，我需要分析原有结构和新结构的变化。原有的三个算子都有uid，新增了一个Filter算子。在恢复时，原有算子的uid必须保持不变，而新增的Filter因为没有历史状态，不需要设置uid或者可以设置新的uid。因此，正确的做法是保留原有三个算子的uid，并为新增的Filter算子显式设置一个新的uid，或者不设置（但建议设置以保持一致性）。这样Flink在恢复checkpoint时，能正确匹配原有uid对应的状态，而新增的Filter没有历史状态，不会影响恢复。需要注意，用户可能会误解需要修改原有算子的uid，但实际上必须保持原有uid不变，否则Flink无法识别原有状态。同时，要确保新增的算子不覆盖原有uid，否则可能导致冲突。总结步骤应该是： 1. 保持Source、Map、Sink的uid不变。 2. 为新增的Filter算子设置新的uid，例如“my-filter”。 3. 确保所有有状态算子（如果有的话）都正确配置uid。 4. 在代码中显式设置这些uid，然后重启作业，使用原有checkpoint恢复。还需要提醒用户，如果Filter算子是有状态的，必须为其设置uid，否则未来修改拓扑时可能无法恢复。如果无状态，设置uid虽不是必须，但建议保持习惯。最后，提供一个代码示例，展示如何在新结构中配置uid，这样用户能更直观地理解如何操作。</think>--- 当 Flink 作业的拓扑结构发生变化（例如新增 `Filter` 算子）时，**显式指定 `uid` 是确保状态恢复的关键**。以下是具体操作步骤和原理说明： --- ### 一、场景说明 - **原始拓扑**：`Source(uid="kafka-source") → Map(uid="my-map") → Sink(uid="doris-sink")` - **修改后拓扑**：`Source → Map → Filter → Sink`（新增 `Filter` 算子） - **目标**：使用原有 Checkpoint 恢复作业时，确保 **原有算子的状态正确匹配**，新增 `Filter` 算子无历史状态需处理。 --- ### 二、恢复策略与配置方法 #### 1. **保留原有算子的 `uid`** - **必须保持原有 `uid` 不变**：Flink 通过 `uid` 识别算子状态。若修改原有算子的 `uid`，会导致状态无法匹配。 - **代码示例**： ```java DataStream<String> stream = env .addSource(new KafkaSource()) .uid("kafka-source") // 保留原有 uid .map(new MyMapper()) .uid("my-map") // 保留原有 uid .filter(new MyFilter()) // 新增 Filter 算子 .addSink(new DorisSink()) .uid("doris-sink"); // 保留原有 uid ``` #### 2. **为新增算子显式指定 `uid`** - **新增 `Filter` 算子需要显式指定 `uid`**（即使它无状态）： - **原因**：若未来拓扑再次修改（例如在 `Filter` 后新增其他算子），显式 `uid` 可避免自动生成的 `uid` 变化导致状态错乱。 - **示例**： ```java .filter(new MyFilter()) .uid("my-filter") // 显式指定新增 Filter 的 uid ``` #### 3. **完整配置示例** ```java DataStream<String> stream = env .addSource(new KafkaSource()) .uid("kafka-source") // Source uid 不变 .map(new MyMapper()) .uid("my-map") // Map uid 不变 .filter(new MyFilter()) .uid("my-filter") // 新增 Filter 的 uid .addSink(new DorisSink()) .uid("doris-sink"); // Sink uid 不变 ``` --- ### 三、Checkpoint 恢复行为解析 #### 1. **状态匹配逻辑** - Flink 通过 `uid` 将 Checkpoint 中的状态与算子一一绑定。 - **原有算子**（Source、Map、Sink）的 `uid` 未变 → 状态自动恢复。 - **新增 Filter** 无历史状态 → Flink 会初始化其状态为空。 #### 2. **拓扑变化的影响** - 新增 `Filter` 算子对状态恢复无负面影响，因为它不依赖历史状态。 - 若修改了原有算子的 `uid`，则会导致状态恢复失败（Flink 认为这些算子是“新算子”）。 --- ### 四、验证恢复是否成功 1. **通过 Flink Web UI 检查**： - 确认算子列表中 `uid` 与 Checkpoint 中的记录一致。 - 新增的 `Filter` 算子应显示为无历史状态（`State Size` 为 0）。 2. **日志检查**： - 在作业启动日志中搜索 `Restoring from Checkpoint`，确认无状态不匹配的警告。 3. **功能验证**： - 确保数据经过 `Filter` 后，下游处理逻辑符合预期（例如过滤规则生效）。 --- ### 五、常见问题与规避措施 #### 问题 1：新增算子后状态恢复失败 - **原因**：原有算子的 `uid` 被意外修改。 - **规避**：严格保留原有算子的 `uid`，仅新增算子显式指定 `uid`。 #### 问题 2：Filter 算子未配置 `uid` 导致未来状态问题 - **风险**：若后续在 `Filter` 后新增其他算子，自动生成的 `uid` 可能变化。 - **规避**：**始终为新增算子显式指定 `uid`**，即使当前无状态。 --- ### 六、总结 - **保留原有 `uid`**：确保 Source、Map、Sink 的 `uid` 与 Checkpoint 中一致。 - **显式指定新增算子 `uid`**：为 `Filter` 分配新 `uid`（如 `"my-filter"`），避免未来拓扑变化引发问题。 - **验证逻辑**：通过 Flink Web UI 和日志确认状态恢复正确性。