
Flink入门
文章平均质量分 60
以实战的进行分享,从入门到高级,分享知识、碰到的问题以及解决
码农_程序员
大数据技术的熟练的运用,有海量数据架构的设计和优化经验
展开
-
Flink 实战问题(八):NoSuchMethodError: org.apache.kafka.clients.producer.KafkaProducer.close
批处理写入kafka,结束关闭kafka时出现错误:NoSuchMethodError: org.apache.kafka.clients.producer.KafkaProducer.close原创 2022-10-15 09:12:58 · 2908 阅读 · 1 评论 -
Flink 实战问题(七):No Watermark(Watermarks are only available EventTime is used)
实现窗口统计时,出现No Watermark(Watermarks are only available EventTime is used)原创 2022-06-21 22:54:20 · 3319 阅读 · 0 评论 -
Flink 实战问题(六):Cannot instantiate user function、StreamCorruptedException: unexpected block data
Flink 任务提交,刚启动,一直运行报错:org.apache.flink.streaming.runtime.tasks.StreamTaskException: Cannot instantiate user function、StreamCorruptedException: unexpected block data原创 2022-06-12 23:21:41 · 5430 阅读 · 0 评论 -
Flink 实战问题(五):The transaction timeout is larger than the maximum value allowed by the broker
设置kafka producer为Semantic.EXACTLY_ONCE会报Unexpected error in InitProducerIdResponse; The transaction timeout is larger than the maximum value allowed by the broker (as configured by max.transaction.timeout.ms)原创 2022-05-12 09:26:55 · 1742 阅读 · 0 评论 -
Flink(十二):Task与算子链简介
Flink 将算子的 subtasks 链接成 tasks。每个 task 由一个线程执行。默认情况下,Flink 允许 subtask 共享 slot,即便它们是不同的 task 的 subtask,只要是来自于同一作业即可,将算子链接成 task 是个有用的优化:它减少线程间切换、缓冲的开销,并且减少延迟的同时增加整体吞吐量。原创 2022-04-10 14:43:35 · 2665 阅读 · 0 评论 -
Flink(十一):Parallelism 、Slot 简介
TaskManager(也称为 worker)执行作业流的 task,在 TaskManager 中资源调度的最小单位是 task slot,slot也起到缓存和交换数据流,TaskManager 中 task slot 的数量表示并发处理 task 的数量,Flink 每个task 的数量是由Parallelism设置的,合理设置solt、parallelism的数量对减少延迟、增加整体吞吐量起到关键作用原创 2022-04-08 22:53:43 · 2380 阅读 · 0 评论 -
Flink实战问题(五):TaskManager memory configuration failed: Derived JVM Overhead size
flink 运行任务突然报错,org.apache.flink.configuration.IllegalConfigurationException: TaskManager memory configuration failed: Derived JVM Overhead size (2.500gb (2684354560 bytes)) is not in configured JVM Overhead range [192.000mb (201326592 bytes), 1024.000mb (1原创 2022-03-30 18:00:48 · 7409 阅读 · 0 评论 -
Flink(八):Flink 进程内存、总内存内存简介
Apache Flink 是一个分布式系统,它需要计算资源来执行应用程序。Flink 集成了所有常见的集群资源管理器,例如Hadoop YARN、Apache Mesos和Kubernetes,Apache Flink 也是基于 JVM 的高效处理能力,我们需对各组件内存的了解,更好的使用内存。原创 2022-03-27 20:02:40 · 4543 阅读 · 0 评论 -
Flink(九):JobManager 内存简介
JobManager 具有许多与协调 Flink 应用程序的分布式执行有关的职责:它决定何时调度下一个 task(或一组 task)、对完成的 task 或执行失败做出反应、协调 checkpoint、并且协调从失败中恢复等等。这个进程由三个不同的组件组成ResourceManager、Dispatcher、JobMaster。需对JobManager 内存详细了解,以及内存在整体上以及细粒度上的配置方法二、JobManager 内存模型简介 三、运用原创 2022-03-26 22:03:28 · 3361 阅读 · 0 评论 -
Flink(十):TaskManager 内存简介
Flink TaskManager(也称为 worker)执行作业流的 task,并且缓存和交换数据流,TaskManager 负责执行用户代码。根据实际需求为 TaskManager 配置内存将有助于减少 Flink 的资源占用,增强作业运行的稳定性。原创 2022-03-26 22:00:22 · 6093 阅读 · 0 评论 -
Flink 实战问题(四):ValidationException: Could not find any factory for identifier ‘avro-confluent‘
采用FLink SQL 读取kafka 数据,数据格式是avro('value.format' = 'avro-confluent'),任务启动报错了ValidationException: Could not find any factory for identifier 'avro-confluent'原创 2022-03-23 20:53:03 · 2428 阅读 · 0 评论 -
Flink(七):Session Windows例子
会话窗口按活动会话对元素进行分组。与滚动窗口和滑动窗口相比,会话窗口不重叠,也没有固定的开始和结束时间。相反,当会话窗口在一段时间内没有接收到元素时,即当出现不活动间隙时,会话窗口将关闭。会话窗口可以配置有会话间隙功能,该功能定义不活动的时间长度。当此期限到期时,当前会话关闭,后续元素被分配到新的会话窗口。实现对应的例子原创 2022-03-12 21:03:25 · 2621 阅读 · 1 评论 -
Flink(六):Tumbling Windows 例子
滚动窗口将每个元素分配给指定窗口大小的窗口。滚动窗口具有固定大小并且不重叠。例如,如果指定一个大小为 5 分钟的滚动窗口,则将评估当前窗口,并每隔五分钟启动一个新窗口,我们实现对应的例子原创 2022-03-12 20:56:55 · 3271 阅读 · 0 评论 -
Flink(五):watermark简介
一、简介 我们基于特定时间段进行聚合时,可以引用不同的时间类型,Flink 最新版本提供了Event Time、Processing Time 两种时间类型。数据在Flink 流转时,有时因为网络、资源等,产生一些乱序,获取到时间乱序,为了统计数据更准确,Flink 提供了水位线WaterMark 来跟踪Event Time。二、watermark介绍 数据在Flink流转过程中,产生一些乱序,获取到时间乱序,如图所示: ...原创 2022-01-20 22:08:34 · 2527 阅读 · 0 评论 -
Flink(四) :窗口简介
Flink在流处理过程中,数据不断进来,我们需要在一个时间段内进行维度上对数据进行聚合(窗口),Flink提供了Tumbling Windows(无重叠)、Sliding Windows(有重叠)、Session Windows(无重叠) 三种窗口类型,窗口 驱动主要分为(时间、数量)两种,根据我们实际的业务场景选择不同的窗口类型。原创 2022-01-16 11:23:46 · 2777 阅读 · 0 评论 -
Flink (三):MaxCompute DataSet Connector
一、背景需把MaxCompute的结果采用FLink DataSet 读取数据,并sink到目标表,采用离线批处理读取数据并二、全量同步代码MaxCompute源表和结果表依赖 VVR 4.0.7(对应Flink 1.13) <dependency> <groupId>com.alibaba.ververica</groupId> <artifactId>ververica-connector-odps<原创 2022-01-12 22:01:37 · 1265 阅读 · 0 评论 -
Flink (二):MaxCompute DataStream Connector
一、背景需把MaxCompute的结果采用FLink DataStream 读取数据,并sink到目标表,MaxCompute文档那边一直没看到文档,后面查看了阿里的FLink文档,这边整理一下,方便后面操作二、全量同步代码MaxCompute源表和结果表依赖 VVR 4.0.7(对应Flink 1.13) <dependency> <groupId>com.alibaba.ververica</groupId> &...原创 2022-01-10 21:26:07 · 1985 阅读 · 0 评论 -
Flink(一):简介
一、简介 Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。无边界:有定义流的开始,但没有定义流的结束(我们不用等到所有数据都到达再处理,因为输入是无限的,数据源例如kafka,源源不断的读取数据,并进行不断处理) 有边界:有定义流的开始,也有定义流的结束(有界流可以在摄取所有数据后再进行计算,数据源可以是文件等,可以称为批处理) Apache Flink 是一个分布式系统,它需要计算资源来执行应用程序。Fl...原创 2022-01-03 22:32:05 · 1087 阅读 · 0 评论 -
Flink实战问题(三): Failed to rollback to checkpoint/savepoint
一、背景二:错误Caused by: java.lang.IllegalStateException: Failed to rollback to checkpoint/savepoint hdfs://127.0.0.1/flink-checkpoints/78f7cb6b577fe6db19648ca63607e640/chk-6976. Cannot map checkpoint/savepoint state for operator e75d4004e6c5f0908bd4077fc原创 2021-12-28 20:52:55 · 3269 阅读 · 0 评论 -
Flink实战问题(二):java.lang.RuntimeException: An error occurred in ElasticsearchSink
一:背景 采用flink sql 入库elasticsearch出现入库失败,数据没入进去二:错误Caused by: org.apache.flink.runtime.JobException: Recovery is suppressed by FailureRateRestartBackoffTimeStrategy(FailureRateRestartBackoffTimeStrategy(failuresIntervalMS=300000,backoffTimeMS...原创 2021-12-20 21:48:43 · 4228 阅读 · 0 评论 -
Flink实战问题(一):Unable to create a sink for writing table
错误提示Unable to create a sink for writing table原创 2021-12-18 23:02:25 · 6855 阅读 · 0 评论