flink算子动态编排 - 技术调研历程

最新推荐文章于 2025-10-31 11:40:29 发布

原创

最新推荐文章于 2025-10-31 11:40:29 发布 · 3.1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#flink #大数据 #big data #算子编排 #流程编排

本文详细记录了对Flink算子动态编排的技术调研过程，深入探讨了在大数据处理中如何实现算子的灵活配置和流程编排，以提升数据处理效率和系统适应性。

# 1. 首先，先展示一张常规编写算子计算流程的示意图

# 2. 如上图所示，常规编写算子，相当于死代码，

我们不能够在服务运行的时候，动态的去变更算子流程，

不过这个地方受限于flink生成的计算流图，当服务启动至运行的过程中，flink会将算子的计算流图生成好，不能够进行动态的变更。

当然下面的技术调研，也没有突破这个瓶颈，只是可以在不停止服务，不影响原有算子编排任务前提下，创建新的算子编排任务

以下内容，仅供参考，我会通过几个案例讲述，技术调研过程

# 1. Flink SQL任务自动生成与提交

原博文地址：https://www.cnblogs.com/eryuan/p/15406486.html

大致思想，flink sql通过页面编写代码，可以实现交互式自动生成任务，如下图所示

# 远程提交

上图中作者参考实现效果，编写的实现代码，地址如下所示

github地址：https://github.com/nyingping/flink_remotesubmit

大致思想，通过java编译打包项目文件，将打包后的jar，通过flink-web-API
提交job任务

# 2. 第二种，远程提交job方式

原博文连接地址：https://www.cnblogs.com/gcwell/p/15570295.html

大致思想，通过flink的createRemoteEnvironment远程创建env

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

租房就下房东直租APP

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

实现画布拖拽算子排布，通过flink实现算子编排计算，如何实现？

**My Coding Family**

01-14

855

🏆本文收录于专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由🚀；同时，欢迎大家！持续更新中，up！up！up！！

【Flink 实战系列】Flink 使用 ParameterTool 动态加载外部配置文件

JasonLee实时计算

10-15

2764

直接在代码里面写死。把配置信息维护在一个类里面，所有用到的地方直接引用即可。把配置信息放在项目 resource 下面的一个配置文件中，然后从这个配置文件中加载配置。把配置文件放在外部，启动任务的时候传入一个路径参数，在代码里面解析配置文件。

参与评论您还未登录，请先登录后发表或查看评论

Flink 动态配置（参数算子 CEP）

qq_36393991的博客

09-18

2920

1.方式动态的配置的方式分两种：第一种就是参数配置，利用nacos配置中心，更新Flink代码里的一些全局参数，从而达到更新规则的目的。第二种则需要利用groovy脚本语言嵌入java，nacos更新groove脚本，达到动态更新的目的代码 pom文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:/

大数据系列10：Apache Flink应用案例

kittyzc的博客

08-30

825

1. 案例介绍使用到的中间件：Apache Flink + Analytics Zoo + proxima 开发语言：python 数据：通过天池平台下载小型的训练集，选手自行将训练集划分成部分训练集和测试集，并在本地训练和调试算法，生成预测结果。在评测机器上，会给定四份数据集，分别是用于训练的历史行动数据集和标签数据集，用于测试打分的确诊病例数据集和实时行动数据集。在历史行动数据集，确诊病例数据集和实时行动数据集中，不同的数据都可能代表同一个类（人）。历史行动数据集包括有确诊病例和非确

flink学习与如何在springboot项目中使用flink

最新发布

weixin_41624462的博客

10-31

488

flink：Apache Flink 一种流式计算框架，高吞吐低延迟的数据处理方案原理：把所有数据视为流，由事件驱动，每次事件到达触发计算与传统批处理的区别：Hadoop/Spark batch 固定数据集处理任务，任务所有逻辑执行完成一次提交主要使用场景：高实时性业务(监控告警、风控、推荐、广告投放、实时数仓)在项目中集成flink-示例：动态统计5min内的点击数(强实时性统计，差一秒可能数据变更都非常大)首先在pom中添加依赖 - 举例在kafka信息流中计算。

Flink+ice 实现可视化规则编排与灵活配置(Demo)

迟到的月亮

09-16

8328

flink+ice 实现动态可视化动态逻辑变更，可用于直接替换cep

Flink 动态加载 Jar 包，实现自定义算子加载执行

zx711166的博客

12-30

2667

Flink 动态加载 Jar 包，实现自定义算子加载执行动态加载Jar动态Jar调用方式动态加载Jar 对应的参数： path：Jar 的存放路径。 env：Flink 的环境实例。 classPath：动态Jar的类路径。 import java.lang.reflect.Field; import java.lang.reflect.Method; import java.net.URL; import java.net.URLClassLoader; import java.util.Array

Spark算子综合案例 - Scala篇

weixin_51439828的博客

04-22

1655

补充完代码后，点击测评，平台会对你编写的代码进行测试，当你的结果与预期输出一致时，即为通过。//2.切分压平、直接好友拼接加入集合、遍历、间接好友拼接、返回集合。//4判断每一行里如果为直接好友将其次数设为0，如果不是+1。//5过滤掉次数为0的剩下的就是间接好友及其次数。区域内进行代码补充，完成统计间接好友的数量的程序。else ("直接好友", 0)请仔细阅读右侧代码，根据方法内的提示，在。知识完成 " 好友推荐 " 的程序。数据说明（第二行为例）：这个人叫。在间接好友关系中出现的次数为。

Flink 算子简介

林木森的博客

08-08

2056

Source Operator Flink的API层级为流式/批式处理应用程序的开发提供了不同级别的抽象第一层是最底层的抽象为有状态实时流处理，抽象实现是 Process Function，用于底层处理第二层抽象是 Core APIs，许多应用程序不需要使用到上述最底层抽象的 API，而是使用 Core APIs 进行开发例如各种形式的用户自定义转换（transformations）、联接（joins）、聚合（aggregations）、窗口（windows）和状态（state）操作等，此

Flink练习第三天：转换算子练习--map、flatmap、filter、reduce、simpleagg

东城庞太师

05-04

1155

目录 map flatmap filter reduce simpleagg map map package com.atguigu.chapter05; import org.apache.flink.api.common.functions.MapFunction; import org.apache.flink.streaming.api.datastream.DataStreamSource; import org.apache.flink.streaming.api.d

Flink/Spark 如何实现动态更新作业配置

djun0426的博客

02-11

944

Flink/Spark 如何实现动态更新作业配置由于实时场景对可用性十分敏感，实时作业通常需要避免频繁重启，因此动态加载作业配置（变量）是实时计算里十分常见的需求，比如通常复杂事件处理 (CEP) 的规则或者在线机器学习的模型。尽管常见，实现起来却并没有那么简单，其中最难点在于如何确保节点状态在变更期间的一致性。目前来说一般有两种实现方式：轮询拉取方式，即作业算子定时检测...

算子：详细篇

weixin_61070671的博客

01-23

1916

使用用户定义的 Partitioner 为每个元素选择目标任务。Scala如果我们想将数据存储到我们自己的存储设备中，而Flink并没有提供可以直接使用的连接器，就只能自定义Sink进行输出了。与Source类似，Flink为我们提供了通用的SinkFunction接口和对应的RichSinkDunction抽象类，只要实现它，通过简单地调用DataStream的.addSink()方法就可以自定义写入任何外部存储。

flink任务调度器

06-20

很牛逼的任务器，可以管理flink的任务

Flink基础概念及算子

m0_57697768的博客

06-08

4200

无界数据流例如从Kafka这样的消息组件中读取的数据一般，没有数据流结束的定义，即使没有数据也在进行消费。有界数据流有界数据流能够等到所有数据都提取之后再进行处理。有状态流处理将数据的中间状态进行存储，能够重复使用该状态进行处理。Flink的特点Flink计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活（窗口必须是批次的整数倍）状态有没有流式SQL有没有Flink分层API//todo Watersensor Pojo对象。

Flink 能否动态更改 Checkpoint 配置？

http://www.54tianzhisheng.cn/

03-01

1013

前段时间在社区邮件中看到有人提问是否可以动态开启 Checkpoint，昨天在钉钉群中又看到有个同学在问能够动态调整 Checkpoint 的时间，其实不仅仅是这些，在社区邮件和群里经常...

Flink-入门编程及算子介绍

qq_30868737的博客

01-28

477

编程模型 Flink提供了不同级别的编程抽象，通过调用抽象的数据集调用算子构建DataFlow就可以实现对分布式的数据进行流式计算和离线计算，DataSet是批处理的抽象数据集，DataStream是流式计算的抽象数据集，他们的方法都分别为Source、Transformation、Sink Source主要负责数据的读取 Transformation主要负责对数据的转换操作 Sink负责最终计算好的结果数据输出。 DataStream实时wordcount package com.wedoctor.

Flink算子实操（图文）

小小良

08-19

503

原文地址：https://zhangboyi.blog.youkuaiyun.com/article/details/114288304

基于spring实现动态编排

ly的博客

08-29

1239

java一种动态编排的实现

一种动态更新flink任务配置的方法

0x3E6

04-25

4746

通过添加控制流的方式实现flink任务配置的动态更新

Flink算子 Flink算子

03-19

好的，我现在需要回答用户关于Flink算子使用说明和示例的问题。首先，我得回顾一下用户提供的引用内容，确保准确引用相关信息。用户提供了三个引用，分别是关于Flink的数据源算子、聚合算子和Transform算子的示例，...