
flink
文章平均质量分 62
老鼠扛刀满街找猫@
这个作者很懒,什么都没留下…
展开
-
Flink on yarn 加载失败plugins失效问题解决
flink 任务运行在yarn集群,plugins加载失效问题原创 2023-10-26 15:16:21 · 1369 阅读 · 0 评论 -
flink 开启非对齐checkpoint
从Flink 1.11开始,检查点可以是不对齐的。未对齐的检查点包含飞行中的数据(即存储在缓冲区的数据),作为检查点状态的一部分,这允许检查点障碍超越这些缓冲区。因此,检查点的持续时间变得与当前的吞吐量无关,因为检查点障碍实际上不再被嵌入到数据流中。原创 2023-01-29 15:16:15 · 769 阅读 · 0 评论 -
flink 打包插件maven plugin
flink 打包插件maven plugin。原创 2022-09-09 14:12:36 · 423 阅读 · 0 评论 -
flink 集成cataog-hive
环境:flink 1.13.1hive:3.1.2。原创 2022-08-19 19:52:03 · 197 阅读 · 0 评论 -
flink任务管理yarn perJob模式代码实现
使用场景:flink云平台或者是公司内部flink任务管理平台,提交任务到yarn的流程代码代码来源:分析yarn submit job 流程整合功能:1. 支持动态提交flink任务到yarn2. 支持关闭flink任务3. 支持实时获取任务状态4. 支持实时获取任务jobId5. 支持实时获取flinkWel6. 支持回去yarn ClusterClient...原创 2022-07-14 15:02:20 · 851 阅读 · 0 评论 -
flink 继承connector源码二次开发思路
说明:其他连接器jdbc,kafka等等二次开发思路一致推荐:每个公司基于flink开发内部平台,一些内部的特殊场景与需求,经常需要修改源码。但是修改源码在版本更新的情况下会导致开发成本大,周期长。本方案通过继承源码的方式,通过加强,打包覆盖源码的类解决上述问题。elasticsearch6 为案例,部分pom参考官方提供的连接包,版本号对应,2.2 maven-shade-plugin作用:maven-shade-plugin打包拷贝flink-sql-connector-elasticsear原创 2022-06-27 14:42:35 · 1541 阅读 · 0 评论 -
flink sql 语法校验
说明:apache flink 源码的校验方式原创 2022-06-17 15:54:59 · 1066 阅读 · 1 评论 -
flink Sql自定义kafka连接器
文章目录flink sql自定义kafka连接器1. Overview2. 自定义kafka连接器2.2 maven相关依赖2.3 自定义Factory2.4 测试flink sql自定义kafka连接器在流式计算平台当中,为保证flink sql connector相关参数不暴露,官方提供的连接器不满足业务场景及产品本身的要求,通过可以改源码或者说自定义连接器解决。1. Overview源码架构源码查找:FactoryUtil.discoverFactory 获取所有的连接器Factory,包原创 2022-05-13 14:50:04 · 1718 阅读 · 0 评论 -
flink job 提交模式
文章目录flink job 提交模式1 maven 依赖引用2 提交模式2.1 Standalone 模式2.1.1 页面手动提交2.1.2 指令提交2.1.3 指令取消job2.2 yarn-会话模式(推荐)2.2.1 准备flink job 提交模式flink版本:1.13.1scala版本:2.121 maven 依赖引用 <properties> <flink.version>1.13.1</flink.version>原创 2022-04-20 17:53:09 · 2534 阅读 · 0 评论 -
flink sql 自定义函数UDF
文章目录flink sql 自定义函数UDF1 maven 依赖引用2. 自定义UDF函数2.1 标量函数 (Scalar Function)2.1.1 example2.2 表函数(Table Function)2.2.1 example2.3 聚合函数(Aggregate Function)2.3.1 example2.4 表聚合函数(Table Aggregate Functions)flink sql 自定义函数UDFflink版本:1.13.1scala版本:2.121 maven 依赖引原创 2022-04-20 09:54:11 · 1063 阅读 · 0 评论 -
flink table & sql时间属性与窗口
文章目录flink table & sql 基本API使用1 maven 依赖引用flink table & sql 基本API使用flink版本:1.13.1scala版本:2.121 maven 依赖引用 <properties> <flink.version>1.13.1</flink.version> <scala.version>2.12</scala.version>原创 2022-04-15 11:43:31 · 2522 阅读 · 0 评论 -
flink table & sql 基本API使用
文章目录flink table & sql 基本API使用1 maven 依赖引用2 API2.1 创建表执行环境2.2 创建表2.3 表查询2.4 输出表2.5 表和流得相互转换2.5.1 将表(Table)转换成流(DataStream)2.5.2 将流(DataStream)转换成表(Table)2.4 SQL开窗滚动查询案例flink table & sql 基本API使用flink版本:1.13.1scala版本:2.121 maven 依赖引用 <prope原创 2022-04-14 14:03:35 · 490 阅读 · 0 评论 -
flink stateBackEnd
flink stateBackEndflink版本:1.13.1scala版本:2.121. 类型MemoryStateBackend内存级的状态后端,会将键控状态作为内存中的对象进行管理,将它们存储在 TaskManager 的 JVM 堆上;而将 checkpoint 存储在 JobManager 的内存中。FsStateBackend将 checkpoint 存到远程的持久化文件系统(FileSystem)上。而对于本地状态,跟 MemoryStateBackend 一样,也会存原创 2022-04-12 13:34:55 · 264 阅读 · 0 评论 -
flink 启动参数传递解析及单元测试
flink 启动参数传递解析启动 flink run -d -c class.main -p 3 xxx.jar xxx.propertiespublic static void main(String[] args) throws Exception { // 解析参数 org.apache.commons.configuration2.Configuration conf = ConfigInitialization.initConfig(args);原创 2022-02-07 13:21:54 · 1663 阅读 · 0 评论 -
flink cdc
文章目录flink cdc1 依赖包2 stream3 checkpoint,savepiont 断点续存flink cdc环境要求:flink版本:1.12+java版本:java 8+git:https://github.com/ververica/flink-cdc-connectors1 依赖包<dependencies> <dependency> <groupId>org.apache.flink</groupId&原创 2021-12-24 11:40:42 · 601 阅读 · 0 评论 -
Flink kafka偏移量
文章目录Flink kafka偏移量1 代码2 offset 五种模式2.1 kafkaConsumer.setStartFromGroupOffsets();2.2 kafkaConsumer.setStartFromEarliest();2.3 kafkaConsumer.setStartFromLatest()2.4 kafkaConsumer.setStartFromTimestamp()2.5 kafkaConsumer.setStartFromSpecificOffsets(specificSt原创 2021-11-22 13:44:21 · 3844 阅读 · 0 评论 -
Flink checkPoint容错机制配置
Flink checkPoint容错机制配置flink版本:flink1.13.1codeimport org.apache.flink.api.common.restartstrategy.RestartStrategies;import org.apache.flink.api.common.time.Time;import org.apache.flink.runtime.state.memory.MemoryStateBackend;import org.apache.flink.str原创 2021-11-16 11:24:11 · 1678 阅读 · 0 评论 -
Flink集群部署centos7
文章目录Flink集群部署centos7-Standalone模式1 模板虚拟机环境准备1.1 安装epel-release1.2 linux 安装的是最小系统则安装一下插件1.3 关闭防火墙,关闭防火墙开机自启1.4 创建一个用户develop1.5 配置develop用户具有root权限,方便后期加sudo执行root权限的命令1.6 在/opt目录下创建文件夹,并修改所属主和所属组1.7 卸载虚拟机自带的JDK1.8 安装JDK1.9 重启虚拟机2 克隆虚拟机2.1 克隆3 安装3.1 集群部署规划原创 2021-10-27 14:14:44 · 2104 阅读 · 1 评论 -
Flink 案例2-基于log日志统计浏览量统计
Flink 案例2-基于log日志统计浏览量统计需求:每隔 5 秒,输出最近 1 分钟内访问量最多的前 N 个 URL1 pom <dependencies> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId> <ve原创 2021-07-02 16:12:24 · 954 阅读 · 7 评论 -
Flink 案例1-短期热门商品点击量汇总
文章目录Flink 案例1-热门浏览商品1 需求说明2 数据源3 code4 结果Flink 案例1-热门浏览商品1 需求说明每隔 5秒输出最近1分钟内点击量最多的前 N 个商品。2 数据源#商品id,加密id,类型id,pv-标识点击事件,时间单位秒543461,1715,1464116,pv,1511658001543462,2244074,1575622,pv,1511658002543463,2244074,1575622,pv,1511658002543461,3611281,9原创 2021-07-01 14:52:30 · 209 阅读 · 0 评论 -
Flink window
文章目录Flink window1 window概念2 window类型2.1 滚动窗口(Tumbling Windows)2.2 滑动窗口(Sliding Windows)2.3 会话窗口(Session Windows)Flink window1 window概念streaming 流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长的本质上无限的数据集,而 window 是一种切割无限数据为有限块进行处理的手段。Window 是无限数据流处理的核心,Wi原创 2021-06-22 09:26:51 · 137 阅读 · 0 评论 -
Flink 状态后台
文章目录Flink 状态后台Flink 状态后台原创 2021-06-30 16:22:58 · 386 阅读 · 0 评论 -
Flink processFunction API
文章目录Flink processFunction API1 KeyedProcessFunction2 TimerService 和 定时器(Timers)Flink processFunction API1 KeyedProcessFunctionKeyedProcessFunction 用来操作 KeyedStream。KeyedProcessFunction 会处理流的每一个元素,输出为 0 个、1 个或者多个元素。所有的 Process Function 都继承自RichFunction 接原创 2021-06-30 14:05:45 · 252 阅读 · 0 评论 -
Flink 时间语义
Flink 时间语义时间语义介绍Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink 通过时间戳分配器访问事件时间戳。Ingestion Time:是数据进入 Flink 的时间。Processing Time:是每一个执行基于时间操作的算子的本地系统时间,与机器相关,默认的时间属性就是 Processing Time。使用在 Flink 的流式处理中,绝大部分的业务都会使用 eventTime原创 2021-06-23 14:07:42 · 345 阅读 · 1 评论 -
Flink Sink
文章目录Flink Sink1 pom2 kafka sinkFlink Sink官网提供的Sinkhttps://ci.apache.org/projects/flink/flink-docs-release-1.13/docs/connectors/datastream/kafka/1 pom <dependency> <groupId>org.apache.flink</groupId> <artifa原创 2021-06-18 17:13:52 · 289 阅读 · 0 评论 -
Flink 流处理API
文章目录Flink 流处理API1 Environment1.1 getExecutionEnvironment2 Source2.1 从集合中读取2.2 从文件读取2.3 从socket读取2.3 从kafka读取Flink 流处理API1 Environment1.1 getExecutionEnvironment创建一个执行环境,表示当前执行程序的上下文。 如果程序是独立调用的,则此方法返回本地执行环境;如果从命令行客户端调用程序以提交到集群,则此方法返回此集群的执行环境,也就是说,getEx原创 2021-06-17 15:20:47 · 256 阅读 · 0 评论 -
Flink快速上手
文章目录Flink快速上手1 pom依赖2 任务-统计文件中每次单词出现的次数2.1 批处理 wordcount (一次性处理)3 流处理 wordcount (接收一条数据处理一条)Flink快速上手1 pom依赖 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId>原创 2021-06-16 13:57:34 · 201 阅读 · 0 评论 -
Flink运行时组件
文章目录Flink运行时组件1 作业管理器(JobManager)2 资源管理器(ResourceManager)3 任务管理器(TaskManager)3.1 TaskManger 与 Slots4 分发器(Dispatcher)5 任务调度原理Flink运行时组件Flink 运行时架构主要包括四个不同的组件,它们会在运行流处理应用程序时协同工作:作业管理器(JobManager)、资源管理器(ResourceManager)、任务管理器(TaskManager),以及分发器(Dispatcher转载 2021-06-16 16:13:58 · 165 阅读 · 0 评论