
Flink
文章平均质量分 77
flink
hyunbar
这个作者很懒,什么都没留下…
展开
-
FlinkSQL 窗口聚合
id=1, 1970-01-01T00:00:03Z, 1, 11]+I[张三, ./home, 1970-01-01T00:00:05Z, 2, 6]+I[张三, ./home, 1970-01-01T00:00:06Z, 3, 6]+I[李四, ./cart, 1970-01-01T00:00:08Z, 2, 6]# 10s内,王五2次,url最大11+I[王五, ./prod?在进行窗口计算时,分组窗口是将窗口本身当作一个字段对数据进行分组的,可以对组内的数据进行聚合。原创 2022-09-04 12:58:15 · 2742 阅读 · 2 评论 -
Flink Yarn Per Job - 启动TM,向RM注册,RM分配solt
通过Rpc服务,启动 TaskExecutor,找 它的 onStart()方法。开始注册,注册成功之后,调用 onRegistrationSuccess()分配完之后,通知 TaskManager提供 slot给 JobMaster。终端的启动,实际上是由 自身网关(RpcServer)来启动的。根据 RM的命令,分配taskmanager上的slot。连接上job, 向JobManager提供 slot。TaskManager 提供slot。创建和注册 新的这些 slot。启动TaskManager。.原创 2022-08-04 19:26:31 · 507 阅读 · 0 评论 -
Flink Yarn Per Job - JobManger 申请 Slot
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-z1OedAhy-1659612338060)(https://mmbiz.qpic.cn/mmbiz_svg/ibKHP1TZZeXLuZkD53jFWzc8iauhHlerlWDib9Dgm1JiaSF9LB4RGxxD4cSFrUoIeI4fvic7VPGpKGv8AqCJgcUeqLoOAXBW6kKov/640?JobMaster 启动时,启动 SlotPool,向 ResourceManager 注册。...原创 2022-08-04 19:25:50 · 564 阅读 · 0 评论 -
Flink Yarn Per Job - 创建启动Dispatcher RM JobManager
创建和启动 Dispatcher => dispatcher会创建和启动JobMaster。创建 调度器,创建的时候把 JobGraph转换成 ExecutionGraph。创建Yarn的ResourceManager的客户端,并且初始化和启动。创建yarn的 NodeManager的客户端,并且初始化和启动。创建接收前端Rest请求的节点,web页面提交的应用。创建 Yarn模式的 ResourceManager。创建和启动 JobManager里的组件。如果不存在执⾏图,就创建⼀个新的执⾏图。...原创 2022-08-02 19:52:48 · 525 阅读 · 0 评论 -
Flink SQL 时区
大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 95篇原创内容 ...原创 2021-12-02 17:33:55 · 3536 阅读 · 0 评论 -
Flink架构
原创 2021-06-23 17:55:53 · 99 阅读 · 0 评论 -
Flink Postgres CDC
Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料128篇原创内容公众号。原创 2022-07-26 20:16:29 · 3536 阅读 · 1 评论 -
Flink Yarn Per Job - 启动AM
高可用配置:重试次数,默认2次(DEFAULT_RM_AM_MAX_ATTEMPTS=2)。用来上传:用户jar包、flink的依赖、flink的配置文件。2.0 用来上传:用户jar包、flink的依赖、flink的配置文件。10.0 将之前封装的 Map(AM的环境信息、类路径),设置到容器里。// 上传Flink的配置文件 - flink-conf.yaml。2.0 Yarn应用的文件上传器:FS、对应的HDFS路径。将之前封装的 Map(AM的环境信息、类路径),设置到容器里。...原创 2022-08-02 19:26:05 · 501 阅读 · 0 评论 -
Flink Yarn Per Job - 提交应用
代码】Flink Yarn Per Job - 提交应用。原创 2022-08-02 19:23:15 · 201 阅读 · 0 评论 -
Flink DataGen 模拟数据源
大数据技术AIFlink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料117篇原创内容公众号开发完Flink作业,压测的方式很简单,先在kafka中积压数据,之后开启Flink任务,出现反压,就是处理瓶颈。相当于水库先积水,一下子泄洪。数据可以是自己造的模拟数据,也可以是生产中的部分数据。造测试数据的工具:DataFactory、datafaker 、DBMonster、Data-Processer 、Nexmark、Jmeter等。Flink从1.11开始提供了一个内置的Data原创 2022-06-20 20:13:48 · 3005 阅读 · 0 评论 -
Flink 细粒度滑动窗口性能优化
大数据技术AIFlink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料118篇原创内容公众号当使用细粒度的滑动窗口(窗口长度远远大于滑动步长)时,重叠的窗口过多,一个数据会属于多个窗口,性能会急剧下降。以1分钟的频率实时计算App内各个子模块近24小时的PV和UV。我们需要用粒度为1440 / 1 = 1440的滑动窗口来实现它,但是细粒度的滑动窗口会带来性能问题,有两点:对于一个元素,会将其写入对应的(key, window)二元组所圈定的windowState状态中。如果粒度为原创 2022-06-23 21:28:22 · 1235 阅读 · 0 评论 -
Flink Yarn Per Job - CliFrontend
java-cp就会开启JVM虚拟机,在虚拟机上开启CliFrontend进程,然后开始执行main方法。ResourceManager的创建、启动(slotmanager真正的管理资源,向yarn申请资源)slotpool向slotmanger申请资源,slotmanger向yarn申请资源(启动节点)java-cp和-classpath一样,是指定类运行所依赖其他类的路径。集群描述器上传jar包、配置,封装提交给yarn的命令。Per-Job启动的三个进程。...原创 2022-08-01 19:44:59 · 450 阅读 · 0 评论 -
Flink Streaming-Sink
大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 100篇原创内容 ...原创 2021-12-29 13:56:37 · 1927 阅读 · 0 评论 -
Mac m1 Ubuntu里docker中安装mysql
大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 117篇原创内容 ...原创 2022-05-28 16:00:34 · 388 阅读 · 0 评论 -
Flink SQL TOPN 优化
大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 94篇原创内容 ...原创 2021-11-29 16:08:00 · 1339 阅读 · 0 评论 -
Flink Yarn Per Job - Yarn应用
决定后面什么类型的执行器提交任务yarn-session、yarn-per-job。是否指定为per-job模式,即指定”-myarn-cluster”;是否存在flink在yarn的appID,即yarn-session模式是否启动。executor的名字为“yarn-session”或“yarn-per-job”Generic、Yarn、Default三种命令行客户端。依次是Generic、Yarn、Default。匹配一个“-”的参数或者两个“–”的参数。...原创 2022-08-01 19:47:34 · 1215 阅读 · 2 评论 -
Flink双流join的3种方式及IntervalJoin源码分析
大数据技术AIFlink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料117篇原创内容公众号在数据库中的静态表上做 OLAP 分析时,两表 join 是非常常见的操作。同理,在流式处理作业中,有时也需要在两条流上做 join 以获得更丰富的信息。Flink DataStream API 为用户提供了3个算子来实现双流 join,分别是:join()coGroup()intervalJoin()join()join() 算子提供的语义为"Window join",即按照指定字段和(滚原创 2022-06-07 13:13:24 · 1026 阅读 · 0 评论 -
Flink SQL Hudi 实战
官网httpsgiteehttps。原创 2022-07-28 20:40:33 · 1230 阅读 · 2 评论 -
Flink Yarn Per Job - 提交流程一
/构建nodechains,返回当前节点的物理出边;TODO将每个JobVertex的入边集合也序列化到该JobVertex的StreamConfig中(出边集合已经在setChaining的时候写入了)/*TODO最重要的函数,生成JobVertex,JobEdge等,并尽可能地将多个节点chain在一起*/TODO过渡用的出边集合,用来生成最终的JobEdge,注意不包括chain内部的边。//保证如果提交的拓扑没有改变,则每次生成的hash都是一样的。...原创 2022-08-01 19:50:34 · 831 阅读 · 0 评论