
Flink
文章平均质量分 63
黄瓜炖啤酒鸭
黄瓜炖啤酒鸭 欢迎分享,欢迎交流,有不懂的可以加微信交流,拒绝红包等利益交流,不懂就问。
展开
-
Flink on yarn 的restful api 简单备份实践
业务需求: 通过yarn的restful api简单的对提交到yarn的flink任务进行运行状态预警监控。官方文档地址:Apache Hadoop 3.2.2 – ResourceManager REST APIs.yarn的restful api: 1, 2, 3, 4, 5, 6,...原创 2022-01-15 12:00:04 · 2769 阅读 · 1 评论 -
flink 1.13.0的一些特性备份记忆
1,最基础的设置flinksql名称:Configuration conf = tEnv.getConfig().getConfiguration(); conf.setString("pipeline.name", "kafka_test");-- set up a catalogCREATE CATALOG hive_catalog WITH ('type' = 'hive');USE CATALOG hive_catalog;-- or use temporary ...原创 2021-12-09 11:37:29 · 1652 阅读 · 0 评论 -
java API 远程SSH 调用flink任务运行
参考文档:Jsch(SSH)工具-JschUtil · Hutool 参考文档原创 2021-11-02 17:46:47 · 1916 阅读 · 1 评论 -
flink on yarn 命令详细解释
Apache Flink 1.11 Documentation: ConfigurationCDH 6.xflink任务提交之后数据乱码的问题。1,代码设置(但是flink默认就是utf-8,没必要)设置了也没效果:一个简单的命令设置格式:#bashecho '开始启动任务.........'/wyyt/software/flink-1.11.2/bin/flink run \-d \-m yarn-cluster \-ynm Ods2dwd_test \-yjm ...原创 2021-10-29 16:31:17 · 2614 阅读 · 2 评论 -
Flink cep监控 Flink任务日志
1,配置flink的log4j(idea本地测试)2, bbb3, ccc原创 2021-06-22 09:43:10 · 861 阅读 · 2 评论 -
Flink jvm参数配置GC日志---转载(有待实践认证)
生产环境上,或者其他要测试 GC 问题的环境上,一定会配置上打印GC日志的参数,便于分析 GC 相关的问题。但是可能很多人配置的都不够“完美”,要么是打印的内容过少,要么是输出到控制台,要么是一个大文件被覆盖,要么是……本文带你一步一步,配置一个完美的 GC 日志打印策略打印内容为了保留足够多的“现场证据”,最好是把 GC 相关的信息打印的足够完整。而且你的程序真的不差你GC时打印日志I/O消耗的那点性能打印基本 GC 信息打印 GC 日志的第一步,就是开启 GC 打印的参数了,也是转载 2021-06-07 09:39:16 · 2125 阅读 · 0 评论 -
Caused by: java.io.NotSerializableException: org.apache.parquet.schema.MessageType
目前没解决,本地代码可以运行,打包集群运行也没问题,可能是zeppelin哪里的依赖包冲突。scala任务代码Headdefault%flink.confflink.execution.packages org.apache.flink:flink-connector-kafka_2.11:1.11.2,com.alibaba:fastjson:1.2.60,org.apache.flink:flink-parquet_2.11:1.1...原创 2021-05-21 13:50:25 · 1123 阅读 · 0 评论 -
mark,解决flink sql集群提交任务不能指定名字的问题
1)先上一段代码package com.rookie.submit.mainimport java.io.Fileimport com.rookie.submit.common.{Common, Constant}import com.rookie.submit.common.Constant._import com.rookie.submit.util.{RegisterUdf, SqlFileUtil, TableConfUtil}import org.apache.flin.原创 2020-10-09 14:01:16 · 1269 阅读 · 1 评论 -
Flink通过读取sql语句,执行代码
参考:http://wuchong.me/blog/2019/09/02/flink-sql-1-9-read-from-kafka-write-into-mysql/参考:https://github.com/wuchong/flink-sql-submit1)做一个最简单的sql配置文件-- -- 开启 mini-batch-- SET table.exec.mini-batch.enabled=true;-- -- mini-batch的时间间隔,即作业需要额外忍受的延迟-.原创 2020-10-09 11:12:25 · 2823 阅读 · 1 评论 -
转载,维表join详解
维表是数仓中的一个概念,维表中的维度属性是观察数据的角度,在建设离线数仓的时候,通常是将维表与事实表进行关联构建星型模型。在实时数仓中,同样也有维表与事实表的概念,其中事实表通常存储在kafka中,维表通常存储在外部设备中(比如MySQL,HBase)。对于每条流式数据,可以关联一个外部维表数据源,为实时计算提供数据关联查询。维表可能是会不断变化的,在维表JOIN时,需指明这条记录关联维表快照的时刻。需要注意是,目前Flink SQL的维表JOIN仅支持对当前时刻维表快照的关联(处理时间语义),而不支持事实转载 2020-09-04 15:29:28 · 1328 阅读 · 0 评论 -
白斩鸡大佬指点的一些关键信息点
1)sql对应的update-mode ,还有的其他类型地址:https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/table/connect.html#update-modes2) Flinksql的水印API地址https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/table/sql/create.html#crea...原创 2020-05-29 15:44:52 · 178 阅读 · 0 评论 -
Flink sql之hive catalog踩雷记
先上代码:val streamEnv = StreamExecutionEnvironment.getExecutionEnvironmentstreamEnv.setParallelism(5)streamEnv.setStreamTimeCharacteristic(TimeCharacteristic.ProcessingTime)val tableEnvSettings = EnvironmentSettings.newInstance() .useBlinkPlanner()原创 2020-05-29 15:17:01 · 2331 阅读 · 0 评论 -
Flink原理实战每日一篇11 ---SQL实例学习
从这里开始讲Flink SQL听说Flink1.9发布之后 Blink的SQL会并入到Flink,那时候SQL会更强大,这个时候不到打好基础怎么行呢。。。。。。。。一,Flink SQL使用最简单的案例使用:import org.apache.flink.streaming.api.scala.StreamExecutionEnvironmentimport org.apach...原创 2019-07-03 23:48:41 · 1837 阅读 · 0 评论 -
window上运行Flink 读取hive catalog 代码实操
一,导入依赖,主要是hive跟 hadoop<!--hive依赖--><dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-hive_2.11</artifactId> <version>1.10.0</version> <!--<scope&g...原创 2020-05-28 10:32:39 · 1742 阅读 · 0 评论 -
Flink cep需求代码实践02
业务需求01:疑惑点:关于水印的环节,最后一条数据不进入cep触发计算。初始operation_type=1且接下来的数据也是operation_type=1,且次数大于等于3,并且数据与数据之前的时间间隔要小于11000毫秒,且所有匹配数据的时间间隔必须在5分钟之内。数据如下:{"operation_type":"1","order_number":"1","device_code":"6f253e518373bcbe","create_date":"16166531740..原创 2021-03-31 16:26:10 · 365 阅读 · 0 评论 -
Flink CDC生产实践-转载
MySQL CDC连接器允许从MySQL数据库读取快照数据和增量数据。本文档根据官网翻译了如何设置MySQL CDC连接器以对MySQL数据库运行SQL查询。依赖关系为了设置MySQL CDC连接器,下表提供了使用构建自动化工具(例如Maven或SBT)和带有SQL JAR捆绑包的SQL Client的两个项目的依赖项信息。1、Maven依赖<dependency> <groupId>com.alibaba.ververica</groupId>转载 2020-12-29 15:23:30 · 1319 阅读 · 0 评论 -
Flink防火墙开启状态下的端口问题
1,简单记录一下,开启防火墙的情况下,Flink执行任务报错,看日志就是端口timeout ,实际也是关闭防火墙的情况下,集群可以正常运行。2,查询官方之后,跟查询源码后,开放端口在flink-conf.yaml:taskmanager.rpc.port: 50100-50200metrics.internal.query-service.port: 50201-50300blob.server.port: 50301-50400还有默认的端口 8081 6123等端口...原创 2020-12-14 17:31:10 · 1987 阅读 · 0 评论 -
TwoPhaseCommitSinkFunction二阶段提交
1,什么是二阶段提交?TwoPhaseCommitSinkFunctionFlink 已经为我们提供了实现 Exactly-Once 的 FlinkKafkaProducer 类。如下图所示:它实现了TwoPhaseCommitSinkFunction类,并重写了其中的方法,通过 2PC (Two Phase Comit) 二阶提交的方式,实现了 Exactly-Once。使用关系型数据库 MySQL,开启 CheckPoint 机制的前提下,为了保证前一次 CheckPoint ...原创 2020-11-23 16:36:32 · 2451 阅读 · 4 评论 -
mark-Flink自带的单元测试
https://flink.apache.org/news/2020/02/07/a-guide-for-unit-testing-in-apache-flink.html<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-test-utils_${scala.binary.version}</artifactId> <version&g.翻译 2020-11-12 13:48:35 · 926 阅读 · 1 评论 -
记一次TopN 引起的Flink任务报错--转载
起因最近临近双十一,你们也知道,电商类公司到双十一的时候有多忙。压测、稳定性、实时大屏,一堆事情要在双十一之前完成。加上我们最近在做数据平台相关的事情,简直忙到爆炸。就在这么忙的时候,还踩到了Flink中Topn的坑。issule我已经提了,具体可以看这个点我直达issule,感谢@云邪老师帮我改描述标题和内容,我英文实在蹩脚简单的说一下场景Data Source : kafka + canal-jsonData Process : Topn转换成Sql就是create table t_转载 2020-10-28 17:08:04 · 1155 阅读 · 0 评论 -
Flink CDC streaming java代码实战
1,关于Flinkcdc的使用说明 1)导入依赖<dependency> <groupId>com.alibaba.ververica</groupId> <artifactId>flink-connector-mysql-cdc</artifactId> <version>1.1.0</version></dependency> sql案例 : 2)需要理解注意的地...原创 2020-10-21 19:18:18 · 5521 阅读 · 12 评论 -
Flink 输出到kafka 自定义分区遇到问题,请教大家
简单说一下,scala代码添加了自定义分区器,一直报错对应的构造器,不知道哪里写错java代码是没问题的:原创 2020-10-21 11:14:33 · 487 阅读 · 2 评论 -
涉及到一些源码修改的地方-未完
1,zeppelin的interpreter开发思路:可以直接参考修改FlinkInterpreter正常流程:1)创建子项目:2)resource放入json文件3)开发主类,关键就是继承Interpreter核心在于:publicabstractclassInterpreter{/***初始化的时候调用,可以在这个里面加一些系统初始化的工作,这个方法只调用一次。*写过flink自定义source和sink的同...原创 2020-10-14 10:28:41 · 263 阅读 · 0 评论 -
Flink代码kill掉yarn任务,并且实现自动savepoint。
一,最近在做平台,就是前后端分离的项目,简单的说就是对各种组件整合一下子,所以呢,提交任务啥的都在平台上搞了。二,这里实现的功能很简单吧。就是代码模式,执行任务就可以kill掉yarn上的Flink任务。并且能自动生成savapoint三,我们需要写入的参数是: 1)yarn任务idString appId = "application_1600222031782_0023"; 2)Flink任务的jobIdString jobid = "c4d7e2ff6a35d4...原创 2020-09-16 17:43:16 · 3739 阅读 · 0 评论 -
Flink1.11 脚本提交任务yarn以及java代码提交任务到yarn执行实践
1,我们先看官网,一起从官网看起https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/deployment/yarn_setup.html2,看到上图,我就忽略第一个模式了,在正式生产环境我们一般推崇第二种模式,或者第三种模式3,查看执行参数命令./bin/flink run --helpAction "run" compiles and runs a program. Syn...原创 2020-09-10 15:38:32 · 4911 阅读 · 0 评论 -
Flink 动态sink到多个topic,并且实现自定义分区器
1,我们先实现的是序列化类public class CustomKeyedSerializationSchema implements KeyedSerializationSchema<TopicAndValueDemo> { @Override public byte[] serializeKey(TopicAndValueDemo topicAndValueDemo) { String pk = topicAndValueDemo.getPk(.原创 2020-09-01 15:59:37 · 3528 阅读 · 1 评论 -
参考社区实现 Flink1.11将 聚合,update数据写入到kafka
1,快速链接社区文档:https://github.com/ververica/flink-cdc-connectors下载依赖包:<dependency> <groupId>com.alibaba.ververica</groupId> <!-- add the dependency matching your database --> <artifactId>flink-connector-mysql-c原创 2020-08-13 15:57:41 · 1366 阅读 · 0 评论 -
Flink读取kafka scala 和 java的小坑
报错就是找不到kafka的类Caused by: java.lang.ClassNotFoundException: org.apache.kafka.clients.consumer.ConsumerRecordCaused by: java.lang.ClassNotFoundException: org.apache.kafka.common.serialization.ByteArrayDeserializer先贴代码:在读取kafka多个topic的时候自定义输出类:...原创 2020-08-13 09:45:48 · 3347 阅读 · 0 评论 -
Flink sql实现topN聚合结果写入kafka (Flink 1.11.0版本)
先跟鸡哥打个广告 ,博客地址:https://me.youkuaiyun.com/weixin_47482194写的博客很有水平的,上了几次官网推荐了。步入正题,在大家接触Flink SQL的时候,肯定绕不过kafka,在写入kafka的时候,不晓得大家有没有遇到问题?如下:Exception in thread "main" org.apache.flink.table.api.TableException: AppendStreamTableSinkrequiresthatTable...原创 2020-08-04 14:38:45 · 4991 阅读 · 0 评论 -
Flink SQL的打印输出的几种方式
打广告!!!!!!!!!!!!!!!!!!!!!!!!!:先跟鸡哥打个广告 ,博客地址:https://me.youkuaiyun.com/weixin_47482194写的博客很有水平的,上了几次官网推荐了。1,正常的print()2,在遇到FlinkSQL代码里面有聚合算子的时候,会发现报错了。比如下面的代码:Exception in thread "main" org.apache.flink.table.api.TableException: AppendStreamTa...原创 2020-07-23 17:38:18 · 13739 阅读 · 1 评论 -
Flink 通过数据字段多sink到不同的topic
直接上代码,还有问题():使用EXACTLY_ONCE模式的时候写入有问题。暂时没解决,还有就是依赖冲突问题,kafka-client跟flink-connector-kafka_2.11的冲突package sjb;import com.alibaba.fastjson.JSONObject;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.commo...原创 2020-07-22 15:59:16 · 3732 阅读 · 0 评论 -
Flink on zeppelin 初试2
先跟鸡哥打个广告 ,博客地址:https://me.youkuaiyun.com/weixin_47482194写的博客很有水平的,上了几次官网推荐了。1,首先配置好与hive的集成2,该导入到flink的包都导入到flinklib下面,我是CDH版本,基本包如下:对于这个地方不懂的同学可以评论留言,这是踩过坑的。。3,实践操作:我们正常些代码去查询hive,代码如下:public class SourceData2hive_ods { pri...原创 2020-07-22 11:48:39 · 238 阅读 · 0 评论 -
Flink SQL1.11.0提交到集群测试遇到的问题,记录
Flink开发中社区也有人提问:http://apache-flink.147419.n8.nabble.com/flink-sql-Could-not-find-any-factory-for-identifier-kafka-td4751.html#a4778开始遇到这个问题,Flinklib下的包:java.lang.NoClassDefFoundError: org/apache/flink/streaming/connectors/kafka/KafkaTableSource..原创 2020-07-21 14:27:54 · 3026 阅读 · 1 评论 -
CDH5.16+Flink1.11.0+zepplien初步踩坑
经历了几天的折磨,在白斩鸡的帮助下完成集群任务提交运行:zeppelin提交任务运行:遇到了很多的坑,其中很多报错信息没有留下来或者截图,相对原生集群与CDH集群的不同之处,就在于依赖包的问题,和解决依赖冲突,可以先参考1篇文章。https://developer.aliyun.com/article/761469.之前不管怎么解决依赖冲突,或者放包最后都指向一个错误:org.apache.flink.client.program.ProgramInv...原创 2020-07-20 16:55:47 · 1952 阅读 · 7 评论 -
Flink1.11 streaming写入hive踩坑
1,踩坑的地方,可能是依赖冲突:在开始执行代码的时候发现报错是缺少ORC的依赖,所以导致添加了部分依赖,导致程序执行结果跟预想不一样2,不熟悉具体API导致3,都是idea本地执行的代码,还没在集群测试。POM文件,干净版本:<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-json</artifactId> &.原创 2020-07-14 16:59:19 · 5069 阅读 · 18 评论 -
Flink window+trigger 怎么区别不同的数据输出
问题需求:我们在日常的需求中,通常会汇总计算,比如一天的数据总数,然后每分钟要输出一次结果1)window+trigger实现,就是下面的代码,缺点是没办法区分哪个输出结果是汇总结果,可以参考下面的代码,把窗口的end时间做一个state存储,然后判断大小,再输出最后的汇总值DataStream<String> aggregateStream = nextStream// .windowAll(TumblingProcessingTime..原创 2020-05-26 11:14:40 · 553 阅读 · 0 评论 -
Flink state 调优跟注意点
1,不要使用长list,是在业务需求,可以使用数组好一些2,下图是3个并发变成2个并发,建议少用3,clear不能完全清空,下面是完整的方法。打开监控的对性能有损耗:配置TTL,自动清理过期state:RawState 一般在timer里面用的多,其余地方用不到:如果Job遇到taskManager连接不上,大量GC,或者是代码里...翻译 2019-07-25 16:56:53 · 1111 阅读 · 1 评论 -
Flink 广播流 跟 MapState 案例,方便大家的理解
package com.coder.flink.core.aaa_Use_demo;import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONObject;import org.apache.flink.api.common.state.*;import org.apache.flink.api.common....原创 2019-07-16 11:20:14 · 5700 阅读 · 0 评论 -
Flink 自定义udf
https://www.alibabacloud.com/help/zh/doc-detail/69553.htm自定义聚合函数(UDAF)将多条记录聚合成1条记录。UDAF抽象类内部方法AggregateFunction的核心接口方法,如下所示。说明虽然UDAF可以用Java或者Scala实现,但是建议您使用Java,因为Scala的数据类型有时会造成不必要的性能损...转载 2020-04-12 15:53:45 · 787 阅读 · 1 评论 -
Flink原理实战每日一篇12 ---SQL 自定义函数
一,自定义函数需要通过TableEnvironment 进行注册之后才可以使用,函数注册通过 tableEnv.registerFuntion()方法完成内置函数 官网API地址:https://ci.apache.org/projects/flink/flink-docs-release-1.8/dev/table/functions.html一,自定义函数分为三种...原创 2019-07-09 20:42:10 · 1081 阅读 · 0 评论