
大数据
文章平均质量分 81
hyunbar
这个作者很懒,什么都没留下…
展开
-
FlinkSQL 窗口聚合
id=1, 1970-01-01T00:00:03Z, 1, 11]+I[张三, ./home, 1970-01-01T00:00:05Z, 2, 6]+I[张三, ./home, 1970-01-01T00:00:06Z, 3, 6]+I[李四, ./cart, 1970-01-01T00:00:08Z, 2, 6]# 10s内,王五2次,url最大11+I[王五, ./prod?在进行窗口计算时,分组窗口是将窗口本身当作一个字段对数据进行分组的,可以对组内的数据进行聚合。原创 2022-09-04 12:58:15 · 2742 阅读 · 2 评论 -
Flink Dynamic Tables
如果把流看作一张表,那么流中每个数据的到来,都应该看作是对表的一次插入(Insert)操作,会在表的末尾添加一行数据。而基于表执行的查询操作,也就有了新的含义。原创 2022-08-28 21:14:10 · 1606 阅读 · 0 评论 -
Flink Yarn Per Job - 启动TM,向RM注册,RM分配solt
通过Rpc服务,启动 TaskExecutor,找 它的 onStart()方法。开始注册,注册成功之后,调用 onRegistrationSuccess()分配完之后,通知 TaskManager提供 slot给 JobMaster。终端的启动,实际上是由 自身网关(RpcServer)来启动的。根据 RM的命令,分配taskmanager上的slot。连接上job, 向JobManager提供 slot。TaskManager 提供slot。创建和注册 新的这些 slot。启动TaskManager。.原创 2022-08-04 19:26:31 · 507 阅读 · 0 评论 -
Flink Yarn Per Job - JobManger 申请 Slot
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-z1OedAhy-1659612338060)(https://mmbiz.qpic.cn/mmbiz_svg/ibKHP1TZZeXLuZkD53jFWzc8iauhHlerlWDib9Dgm1JiaSF9LB4RGxxD4cSFrUoIeI4fvic7VPGpKGv8AqCJgcUeqLoOAXBW6kKov/640?JobMaster 启动时,启动 SlotPool,向 ResourceManager 注册。...原创 2022-08-04 19:25:50 · 564 阅读 · 0 评论 -
Flink Yarn Per Job - RM启动SlotManager
创建Yarn的ResourceManager的客户端,并且初始化和启动。创建yarn的 NodeManager的客户端,并且初始化和启动。启动心跳服务:TaskManager、JobMaster。启动心跳服务:TaskManager、JobMaster。创建了Yarn的RM和NM的客户端,初始化并启动。通过选举服务,启动ResourceManager。创建了Yarn的RM和NM的客户端。启动slotManager。启动SlotManager。启动slotManager。...原创 2022-08-04 19:24:20 · 420 阅读 · 0 评论 -
Flink Yarn Per Job - 创建启动Dispatcher RM JobManager
创建和启动 Dispatcher => dispatcher会创建和启动JobMaster。创建 调度器,创建的时候把 JobGraph转换成 ExecutionGraph。创建Yarn的ResourceManager的客户端,并且初始化和启动。创建yarn的 NodeManager的客户端,并且初始化和启动。创建接收前端Rest请求的节点,web页面提交的应用。创建 Yarn模式的 ResourceManager。创建和启动 JobManager里的组件。如果不存在执⾏图,就创建⼀个新的执⾏图。...原创 2022-08-02 19:52:48 · 525 阅读 · 0 评论 -
数据模型⽆法复⽤,归根结底还是设计问题
如果把指标⽐喻成⼀棵树上的果实,那模型就是这棵⼤树的躯⼲,想让果实结得好,必须让树⼲变得粗壮。真实场景举例:⼤多数公司的分析师会结合业务做⼀些数据分析(需要⽤到⼤量的数据),通过报表的⽅式服务于业务部⻔的运营。但是在数据中台构建之前,分析师经常发现⾃⼰没有可以复⽤的数据,不得不使⽤原始数据进⾏清洗、加⼯、计算指标。 由于他们⼤多是⾮技术专业出⾝,写的SQL质量⽐较差,甚⾄⻅过5层以上的......原创 2020-08-17 13:51:00 · 494 阅读 · 0 评论 -
kafka工作流程及文件存储机制
1、Kafka工作流程kafka中消息是以topic进行分类的,生产者生产消息,消费者消费消息,都是面向topic的topic是逻辑上的概念,而partition是物理上的概念,每个partition对应一个log文件,该log文件中存储的就是producer生产的数据。producer生产的数据会被不断追加到log文件的末端,且每条数据都有自己的offsetoffset是一个l......原创 2020-07-25 11:16:00 · 3757 阅读 · 0 评论 -
kafka craft 尝鲜
大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 114篇原创内容 ...原创 2022-05-15 18:06:51 · 392 阅读 · 0 评论 -
Kafka监控Eagle
大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 115篇原创内容 ...原创 2022-05-22 14:46:15 · 565 阅读 · 0 评论 -
Flink SQL 时区
大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 95篇原创内容 ...原创 2021-12-02 17:33:55 · 3536 阅读 · 0 评论 -
Flink架构
原创 2021-06-23 17:55:53 · 99 阅读 · 0 评论 -
Flink Yarn Per Job - 启动AM
高可用配置:重试次数,默认2次(DEFAULT_RM_AM_MAX_ATTEMPTS=2)。用来上传:用户jar包、flink的依赖、flink的配置文件。2.0 用来上传:用户jar包、flink的依赖、flink的配置文件。10.0 将之前封装的 Map(AM的环境信息、类路径),设置到容器里。// 上传Flink的配置文件 - flink-conf.yaml。2.0 Yarn应用的文件上传器:FS、对应的HDFS路径。将之前封装的 Map(AM的环境信息、类路径),设置到容器里。...原创 2022-08-02 19:26:05 · 501 阅读 · 0 评论 -
Flink Postgres CDC
Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料128篇原创内容公众号。原创 2022-07-26 20:16:29 · 3536 阅读 · 1 评论 -
Flink Yarn Per Job - 提交应用
代码】Flink Yarn Per Job - 提交应用。原创 2022-08-02 19:23:15 · 201 阅读 · 0 评论 -
Flink Yarn Per Job - CliFrontend
java-cp就会开启JVM虚拟机,在虚拟机上开启CliFrontend进程,然后开始执行main方法。ResourceManager的创建、启动(slotmanager真正的管理资源,向yarn申请资源)slotpool向slotmanger申请资源,slotmanger向yarn申请资源(启动节点)java-cp和-classpath一样,是指定类运行所依赖其他类的路径。集群描述器上传jar包、配置,封装提交给yarn的命令。Per-Job启动的三个进程。...原创 2022-08-01 19:44:59 · 450 阅读 · 0 评论 -
Flink 细粒度滑动窗口性能优化
大数据技术AIFlink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料118篇原创内容公众号当使用细粒度的滑动窗口(窗口长度远远大于滑动步长)时,重叠的窗口过多,一个数据会属于多个窗口,性能会急剧下降。以1分钟的频率实时计算App内各个子模块近24小时的PV和UV。我们需要用粒度为1440 / 1 = 1440的滑动窗口来实现它,但是细粒度的滑动窗口会带来性能问题,有两点:对于一个元素,会将其写入对应的(key, window)二元组所圈定的windowState状态中。如果粒度为原创 2022-06-23 21:28:22 · 1235 阅读 · 0 评论 -
Flink DataGen 模拟数据源
大数据技术AIFlink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料117篇原创内容公众号开发完Flink作业,压测的方式很简单,先在kafka中积压数据,之后开启Flink任务,出现反压,就是处理瓶颈。相当于水库先积水,一下子泄洪。数据可以是自己造的模拟数据,也可以是生产中的部分数据。造测试数据的工具:DataFactory、datafaker 、DBMonster、Data-Processer 、Nexmark、Jmeter等。Flink从1.11开始提供了一个内置的Data原创 2022-06-20 20:13:48 · 3005 阅读 · 0 评论 -
Mac m1 Ubuntu里docker中安装mysql
大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 117篇原创内容 ...原创 2022-05-28 16:00:34 · 388 阅读 · 0 评论 -
Flink Streaming-Sink
大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 100篇原创内容 ...原创 2021-12-29 13:56:37 · 1927 阅读 · 0 评论 -
Flink Yarn Per Job - Yarn应用
决定后面什么类型的执行器提交任务yarn-session、yarn-per-job。是否指定为per-job模式,即指定”-myarn-cluster”;是否存在flink在yarn的appID,即yarn-session模式是否启动。executor的名字为“yarn-session”或“yarn-per-job”Generic、Yarn、Default三种命令行客户端。依次是Generic、Yarn、Default。匹配一个“-”的参数或者两个“–”的参数。...原创 2022-08-01 19:47:34 · 1215 阅读 · 2 评论 -
Flink SQL TOPN 优化
大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 94篇原创内容 ...原创 2021-11-29 16:08:00 · 1339 阅读 · 0 评论 -
Flink SQL Hudi 实战
官网httpsgiteehttps。原创 2022-07-28 20:40:33 · 1230 阅读 · 2 评论 -
Flink双流join的3种方式及IntervalJoin源码分析
大数据技术AIFlink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料117篇原创内容公众号在数据库中的静态表上做 OLAP 分析时,两表 join 是非常常见的操作。同理,在流式处理作业中,有时也需要在两条流上做 join 以获得更丰富的信息。Flink DataStream API 为用户提供了3个算子来实现双流 join,分别是:join()coGroup()intervalJoin()join()join() 算子提供的语义为"Window join",即按照指定字段和(滚原创 2022-06-07 13:13:24 · 1026 阅读 · 0 评论 -
Flink Yarn Per Job - 提交流程一
/构建nodechains,返回当前节点的物理出边;TODO将每个JobVertex的入边集合也序列化到该JobVertex的StreamConfig中(出边集合已经在setChaining的时候写入了)/*TODO最重要的函数,生成JobVertex,JobEdge等,并尽可能地将多个节点chain在一起*/TODO过渡用的出边集合,用来生成最终的JobEdge,注意不包括chain内部的边。//保证如果提交的拓扑没有改变,则每次生成的hash都是一样的。...原创 2022-08-01 19:50:34 · 831 阅读 · 0 评论 -
编译Hudi
Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料129篇原创内容公众号版本分布centoscentos8hudi0.10.1spark3.1.3scala2.12。原创 2022-07-30 10:36:13 · 696 阅读 · 0 评论 -
k8s 组件及优势
Kubernetes是一个可移植、可扩展的开源平台,用于管理容器化的工作负载和服务,可促进声明式配置和自动化。Kubernetes拥有一个庞大且快速增长的生态,其服务、支持和工具的使用范围相当广泛。这个名字源于希腊语,意为“舵手”或“飞行员”。k8s这个缩写是因为k和s之间有八个字符的关系。Google在2014年开源了Kubernetes项目。Kubernetes建立在Google大规模运行生产工作负载十几年经验的基础上,结合了社区中最优秀的想法和实践。replicas。...原创 2022-07-15 19:36:22 · 947 阅读 · 0 评论 -
Docker postgres
大数据技术AIFlink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料124篇原创内容公众号2、创建本地卷数据卷可以在容器之间共享和重用, 默认会一直存在,即使容器被删除(docker volume inspect pgdata可查看数据卷的本地位置,验证持久数据目录)3、启动容器run :创建并运行一个容器–name :指定容器名称-e POSTGRES_PASSWORD=123456,设置环境变量,指定数据库的登录口令为123456-p :指定宿主机和 Docker原创 2022-07-04 20:22:49 · 1591 阅读 · 0 评论 -
Docker 命令大全及应用实战
大数据技术AIFlink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料122篇原创内容公众号Docker_Host安装Docker的主机Docker Daemon:运行在Docker主机上的Docker后台进程Client:操作Docker主机的客户端(命令行、UI等)Registry:镜像仓库Docker HubImages:镜像,带环境打包好的程序,可以直接启动运行Containers:容器,由镜像启动起来正在运行中的程序参照如下文档:https://docs.docker.c原创 2022-07-03 09:39:39 · 276 阅读 · 0 评论 -
Hive常用窗口分析函数
大数据技术AIFlink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料121篇原创内容公众号FIRST_VALUE:取分组内排序后,截止到当前行,第一个值LAST_VALUE:取分组内排序后,截止到当前行,最后一个值LEAD(col,n,DEFAULT) :用于统计窗口内往后第n行值。第一个参数为列名,第二个参数为往下第n行(可选,默认为1),第三个参数为默认值(当往下第n行为NULL时候,取默认值,如不指定,则为NULL)LAG(col,n,DEFAULT) :用于统计窗口内往前原创 2022-07-02 10:28:33 · 409 阅读 · 0 评论 -
Apache Linkis 中间件架构及快速安装
大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 110篇原创内容 ...原创 2022-03-14 16:04:11 · 5676 阅读 · 0 评论 -
StarRocks 安装与配置
大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 109篇原创内容 ...原创 2022-03-02 14:00:14 · 8521 阅读 · 0 评论 -
Hadoop Kerberos 集成
大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 106篇原创内容 ...原创 2022-02-10 15:54:15 · 3074 阅读 · 6 评论 -
Kerberos 部署与使用
大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 105篇原创内容 ...原创 2022-01-23 13:24:41 · 3742 阅读 · 0 评论 -
Docker 容器的使用和Dockerfile配置ssh服务
大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 102篇原创内容 ...原创 2022-01-15 16:34:09 · 2239 阅读 · 1 评论 -
Docker安装与镜像的使用
大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 102篇原创内容 ...原创 2022-01-12 10:46:51 · 1914 阅读 · 0 评论 -
Prometheus 安装配置
大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 91篇原创内容 ...原创 2021-11-08 10:43:59 · 1410 阅读 · 0 评论