
大数据
文章平均质量分 91
L凝竹
数据产能,人类宝藏。欢迎共同讨论
展开
-
Flink-04 DataStream 2
窗口在Flink中数据是从开始一直流动的,只有开始没有结束,窗口就是一些数据的集合,根据窗口的划分方式可以按照时间片段来划分某一段时间内的数据划分为一个窗口,也可以按照数据条数的个数来划分,一定量的数据为一个窗口。对窗口的数据的研究有利于我们分析总结数据流。这里的窗口如果是按照时间来划分就比较像Spark Streaming中的一个微批的数据。窗口的类别滑动窗口上图中window size就是窗口大到小,window slide就是滑动步长,红色、蓝色、绿色、紫色的框分别原创 2021-07-07 21:38:46 · 384 阅读 · 2 评论 -
Flink-03 DataStream
Flink DataStream DataStream相关概念 5.1.1 ExecutionEnvironment执行环境执行环境创建方式和Flink交互需要一个入口,这个入口就是ExecutionEnvironment执行环境。在Stream API中,它的执行环境就使用StreamExecutionEnvironment来创建,里面包含了创建各种执行环境的静态方法。这里这些静态方法都可以创建执行环境,我们最常用的就是getExecutionEnvironment方法,它会根据实原创 2021-07-04 21:52:13 · 473 阅读 · 3 评论 -
Flink-02 核心架构
Flink运行架构Flink 是一个分布式系统,需要有效分配和管理计算资源才能执行流应用程序。它集成了所有常见的集群资源管理器,例如Hadoop YARN、Apache Mesos和Kubernetes,但也可以设置作为独立集群甚至库运行。 客户端: Client不是运行时和程序执行的一部分,而是用于准备数据流并将其发送给 JobManager。之后,客户端可以断开连接(分离模式),或保持连接来接收进程报告(附加模式)。客户端可以作为触发执行 Java/Scala 程序的一部分运行,..原创 2021-07-03 11:06:22 · 190 阅读 · 0 评论 -
Flink-01 start
Flink简介Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。事件驱动及微批处理事件驱动以事件本身为触发点触发计算等动作,和Spark Streaming可以做鲜明对比,Spark Streaming就不是事件驱动,是微批应用。在Spark Streaming的观念中,流是批数据的一种微分,Spark Streaming将流数据按照时间片段微批扫描,得到的小批量结原创 2021-07-01 23:33:07 · 255 阅读 · 3 评论 -
自定义yarn应用程序
引言yarn是一款非常优秀的分布式资源管理和调度框架,我们的应用程序想要分布式运行,只要使用yarn来管理资源就会非常放心。现如今好多大型计算框架都可以运行在yarn框架上,比如天生运行在yarn上的MapReduce、优秀的内存计算引擎Spark、后起之秀Flink等都支持yarn的运行模式。那么我们自己开发的程序该如何运行在这款优秀的资源管理和调度框架呢。相关资源hadoop-yar...原创 2020-01-17 15:42:41 · 1660 阅读 · 0 评论 -
Hive中分析型函数的那些骚操作
行列互转操作列转行是一列拆成多行idnums1001A,B,AC,AB,AE将上面原表的形式转换成idnums1001A1001B1001AC1001AB1001AE这个过程使用的是lateral view explode(split(column,’,’)) numselect a.id,num f...原创 2019-09-17 22:53:32 · 341 阅读 · 0 评论 -
01.phoenix-入门
Phoenix入门1.简介Phoenix is an open source SQL skin for HBase. You use the standard JDBC APIs instead of the regular HBase client APIs to create tables, insert data, and query your HBase data.Phoenix是H...原创 2019-09-22 22:09:37 · 252 阅读 · 0 评论