Flink入门_码农_程序员的博客-优快云博客

Flink入门

关注

文章平均质量分 60

以实战的进行分享，从入门到高级，分享知识、碰到的问题以及解决

关注数：文章数：21 文章阅读量：75509 文章收藏量：42

作者: 码农_程序员

大数据技术的熟练的运用，有海量数据架构的设计和优化经验

展开

专栏收录文章

Flink 实战问题（八）：NoSuchMethodError: org.apache.kafka.clients.producer.KafkaProducer.close

批处理写入kafka，结束关闭kafka时出现错误：NoSuchMethodError: org.apache.kafka.clients.producer.KafkaProducer.close

原创 2022-10-15 09:12:58 · 3137 阅读 · 1 评论
Flink 实战问题（七）：No Watermark(Watermarks are only available EventTime is used)

实现窗口统计时，出现No Watermark(Watermarks are only available EventTime is used)

原创 2022-06-21 22:54:20 · 3473 阅读 · 0 评论
Flink 实战问题（六）：Cannot instantiate user function、StreamCorruptedException: unexpected block data

Flink 任务提交，刚启动，一直运行报错：org.apache.flink.streaming.runtime.tasks.StreamTaskException: Cannot instantiate user function、StreamCorruptedException: unexpected block data

原创 2022-06-12 23:21:41 · 5816 阅读 · 0 评论
Flink 实战问题（五）：The transaction timeout is larger than the maximum value allowed by the broker

设置kafka producer为Semantic.EXACTLY_ONCE会报Unexpected error in InitProducerIdResponse; The transaction timeout is larger than the maximum value allowed by the broker (as configured by max.transaction.timeout.ms)

原创 2022-05-12 09:26:55 · 1841 阅读 · 0 评论
Flink（十二）:Task与算子链简介

Flink 将算子的 subtasks 链接成 tasks。每个 task 由一个线程执行。默认情况下，Flink 允许 subtask 共享 slot，即便它们是不同的 task 的 subtask，只要是来自于同一作业即可，将算子链接成 task 是个有用的优化：它减少线程间切换、缓冲的开销，并且减少延迟的同时增加整体吞吐量。

原创 2022-04-10 14:43:35 · 2813 阅读 · 0 评论
Flink(十一)：Parallelism 、Slot 简介

TaskManager（也称为 worker）执行作业流的 task，在 TaskManager 中资源调度的最小单位是 task slot，slot也起到缓存和交换数据流，TaskManager 中 task slot 的数量表示并发处理 task 的数量，Flink 每个task 的数量是由Parallelism设置的，合理设置solt、parallelism的数量对减少延迟、增加整体吞吐量起到关键作用

原创 2022-04-08 22:53:43 · 2472 阅读 · 0 评论
Flink实战问题（五）：TaskManager memory configuration failed: Derived JVM Overhead size

flink 运行任务突然报错，org.apache.flink.configuration.IllegalConfigurationException: TaskManager memory configuration failed: Derived JVM Overhead size (2.500gb (2684354560 bytes)) is not in configured JVM Overhead range [192.000mb (201326592 bytes), 1024.000mb (1

原创 2022-03-30 18:00:48 · 7725 阅读 · 0 评论
Flink(八)：Flink 进程内存、总内存内存简介

Apache Flink 是一个分布式系统，它需要计算资源来执行应用程序。Flink 集成了所有常见的集群资源管理器，例如Hadoop YARN、Apache Mesos和Kubernetes，Apache Flink 也是基于 JVM 的高效处理能力，我们需对各组件内存的了解，更好的使用内存。

原创 2022-03-27 20:02:40 · 4652 阅读 · 0 评论
Flink(九)：JobManager 内存简介

JobManager 具有许多与协调 Flink 应用程序的分布式执行有关的职责：它决定何时调度下一个 task（或一组 task）、对完成的 task 或执行失败做出反应、协调 checkpoint、并且协调从失败中恢复等等。这个进程由三个不同的组件组成ResourceManager、Dispatcher、JobMaster。需对JobManager 内存详细了解，以及内存在整体上以及细粒度上的配置方法二、JobManager 内存模型简介三、运用

原创 2022-03-26 22:03:28 · 3480 阅读 · 0 评论
Flink(十)：TaskManager 内存简介

Flink TaskManager（也称为 worker）执行作业流的 task，并且缓存和交换数据流，TaskManager 负责执行用户代码。根据实际需求为 TaskManager 配置内存将有助于减少 Flink 的资源占用，增强作业运行的稳定性。

原创 2022-03-26 22:00:22 · 6572 阅读 · 0 评论
Flink 实战问题（四）：ValidationException: Could not find any factory for identifier ‘avro-confluent‘

采用FLink SQL 读取kafka 数据，数据格式是avro('value.format' = 'avro-confluent')，任务启动报错了ValidationException: Could not find any factory for identifier 'avro-confluent'

原创 2022-03-23 20:53:03 · 2508 阅读 · 0 评论
Flink(七)：Session Windows例子

会话窗口按活动会话对元素进行分组。与滚动窗口和滑动窗口相比，会话窗口不重叠，也没有固定的开始和结束时间。相反，当会话窗口在一段时间内没有接收到元素时，即当出现不活动间隙时，会话窗口将关闭。会话窗口可以配置有会话间隙功能，该功能定义不活动的时间长度。当此期限到期时，当前会话关闭，后续元素被分配到新的会话窗口。实现对应的例子

原创 2022-03-12 21:03:25 · 2707 阅读 · 1 评论
Flink(六)：Tumbling Windows 例子

滚动窗口将每个元素分配给指定窗口大小的窗口。滚动窗口具有固定大小并且不重叠。例如，如果指定一个大小为 5 分钟的滚动窗口，则将评估当前窗口，并每隔五分钟启动一个新窗口，我们实现对应的例子

原创 2022-03-12 20:56:55 · 3364 阅读 · 0 评论
Flink(五)：watermark简介

一、简介我们基于特定时间段进行聚合时，可以引用不同的时间类型，Flink 最新版本提供了Event Time、Processing Time 两种时间类型。数据在Flink 流转时，有时因为网络、资源等，产生一些乱序，获取到时间乱序，为了统计数据更准确，Flink 提供了水位线WaterMark 来跟踪Event Time。二、watermark介绍数据在Flink流转过程中，产生一些乱序，获取到时间乱序，如图所示： ...

原创 2022-01-20 22:08:34 · 2574 阅读 · 0 评论
Flink（四） :窗口简介

Flink在流处理过程中，数据不断进来，我们需要在一个时间段内进行维度上对数据进行聚合（窗口），Flink提供了Tumbling Windows（无重叠）、Sliding Windows（有重叠）、Session Windows（无重叠）三种窗口类型，窗口驱动主要分为（时间、数量）两种，根据我们实际的业务场景选择不同的窗口类型。

原创 2022-01-16 11:23:46 · 2855 阅读 · 0 评论
Flink （三）：MaxCompute DataSet Connector

一、背景需把MaxCompute的结果采用FLink DataSet 读取数据，并sink到目标表，采用离线批处理读取数据并二、全量同步代码MaxCompute源表和结果表依赖 VVR 4.0.7（对应Flink 1.13） <dependency> <groupId>com.alibaba.ververica</groupId> <artifactId>ververica-connector-odps<

原创 2022-01-12 22:01:37 · 1364 阅读 · 0 评论
Flink （二）：MaxCompute DataStream Connector

一、背景需把MaxCompute的结果采用FLink DataStream 读取数据，并sink到目标表，MaxCompute文档那边一直没看到文档，后面查看了阿里的FLink文档，这边整理一下，方便后面操作二、全量同步代码MaxCompute源表和结果表依赖 VVR 4.0.7（对应Flink 1.13） <dependency> <groupId>com.alibaba.ververica</groupId> &...

原创 2022-01-10 21:26:07 · 2166 阅读 · 0 评论
Flink（一）：简介

一、简介 Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。无边界：有定义流的开始，但没有定义流的结束（我们不用等到所有数据都到达再处理，因为输入是无限的，数据源例如kafka，源源不断的读取数据，并进行不断处理）有边界：有定义流的开始，也有定义流的结束（有界流可以在摄取所有数据后再进行计算，数据源可以是文件等，可以称为批处理） Apache Flink 是一个分布式系统，它需要计算资源来执行应用程序。Fl...

原创 2022-01-03 22:32:05 · 1127 阅读 · 0 评论
Flink实战问题（三）： Failed to rollback to checkpoint/savepoint

一、背景二：错误Caused by: java.lang.IllegalStateException: Failed to rollback to checkpoint/savepoint hdfs://127.0.0.1/flink-checkpoints/78f7cb6b577fe6db19648ca63607e640/chk-6976. Cannot map checkpoint/savepoint state for operator e75d4004e6c5f0908bd4077fc

原创 2021-12-28 20:52:55 · 3427 阅读 · 0 评论
Flink实战问题（二）：java.lang.RuntimeException: An error occurred in ElasticsearchSink

一：背景采用flink sql 入库elasticsearch出现入库失败，数据没入进去二：错误Caused by: org.apache.flink.runtime.JobException: Recovery is suppressed by FailureRateRestartBackoffTimeStrategy(FailureRateRestartBackoffTimeStrategy(failuresIntervalMS=300000,backoffTimeMS...

原创 2021-12-20 21:48:43 · 4342 阅读 · 0 评论
Flink实战问题（一）：Unable to create a sink for writing table

错误提示Unable to create a sink for writing table

原创 2021-12-18 23:02:25 · 7096 阅读 · 0 评论

Flink入门

作者: 码农_程序员

Flink 实战问题（八）：NoSuchMethodError: org.apache.kafka.clients.producer.KafkaProducer.close

Flink 实战问题（七）：No Watermark(Watermarks are only available EventTime is used)

Flink 实战问题（六）：Cannot instantiate user function、StreamCorruptedException: unexpected block data

Flink 实战问题（五）：The transaction timeout is larger than the maximum value allowed by the broker

Flink（十二）:Task与算子链简介

Flink(十一)：Parallelism 、Slot 简介

Flink实战问题（五）：TaskManager memory configuration failed: Derived JVM Overhead size

Flink(八)：Flink 进程内存、总内存内存简介

Flink(九)：JobManager 内存简介

Flink(十)：TaskManager 内存简介

Flink 实战问题（四）：ValidationException: Could not find any factory for identifier ‘avro-confluent‘

Flink(七)：Session Windows例子

Flink(六)：Tumbling Windows 例子

Flink(五)：watermark简介

Flink（四） :窗口简介

Flink （三）：MaxCompute DataSet Connector

Flink （二）：MaxCompute DataStream Connector

Flink（一）：简介

Flink实战问题（三）： Failed to rollback to checkpoint/savepoint

Flink实战问题（二）：java.lang.RuntimeException: An error occurred in ElasticsearchSink

Flink实战问题（一）：Unable to create a sink for writing table