
Flink
大数据Flink相关
生产队队长
各位IT爱好者,努力学起来!
展开
-
Flink SQL DDL 和 窗口函数实战(含代码练习)
一、Flink SQL DDL2019 年 8 月 22 日,Flink 发布了 1.9 版本,社区版本的 Flink 新增 了一个 SQL DDL 的新特性,但是暂时还不支持流式的一些概念的定义,比如说水位。二、定义 create table 语句 从 kafka 中读取数据可以体验一下,如果使用 ddl 的方式直接定义一个表从 kafka 中读取数据,并定义成一个表CREATE TAB...原创 2019-12-13 15:13:26 · 6050 阅读 · 2 评论 -
Flink-Kafka 连接器和exactly-once 的一些理解
Flink Source & Sink在 Flink 中,Source 代表从外部获取数据源,Transfromation 代表了对数据进行转换操作,Sink 代表将内部数据写到外部数据源一个 Flink Job 一般由 Source,Transformation,Sink 组成Flink 提供了 Kafka Connector 用于消费/生产 Apache Kafka Topic ...原创 2019-12-16 14:40:53 · 3580 阅读 · 0 评论 -
Flink窗口函数(window function) 详解及代码演示
一、概念在定义好了窗口之后,需要指定对每个窗口的计算逻辑。Window Function 有四种:ReduceFunctionAggregateFunctionFoldFunctionProcessWindowFunction前面两个会执行的更加有效率,因为在元素到来时,Flink 可以增量的把元素聚合到每个窗口上。ProcessWindowFunction 提供了一个 Iter...原创 2019-12-18 10:35:59 · 4331 阅读 · 0 评论 -
Flink Session Window 五个必须注重考虑的地方
一、什么是flink 的 session window与翻滚窗口(Tumbling Window)和滑动窗口(Sliding Window)相比,会话窗口(Session Window)不重叠并且没有固定的开始和结束时间。当会话窗口在一段时间内没有接收到元素时,即当发生不活动的间隙时,会话窗口关闭会话窗口分配器可以设置静态会话间隙和动态会话间隙二、实际应用问题每个用户在一个独立的s...原创 2019-12-19 10:26:22 · 3563 阅读 · 0 评论 -
Flink 彻底理解 window窗口(含图解和代码)
一、描述Window 是处理无限流的核心。Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层的引擎是一个流式引擎,在上面实现了流处理和批处理。而窗口(Window)就是从Streaming 到 batch 的一个桥梁。Flink 提供了非常完善的窗口机制,这是 Flink 最大的亮点之一(其他的亮点包括消息乱序处理和 Checkpoint 机制)二、窗...原创 2019-12-20 10:20:32 · 3603 阅读 · 0 评论 -
【实战】彻底理解flink水位和窗口关系(含图解)
翻阅了很多的 水位和窗口 的博客文章,由于本来概念就很晦涩,光看很难一下子理解,所以本文用实际数据,做了比较详尽的梳理。可以跟着步骤一步步操作,亲自体会水位在处理乱序数据的时候发挥的重要作用,文末有代码地址,下载下来在idea中跑起来运行。一、数据乱序的现象实时计算中,对数据时间比较敏感,有 EventTime 和 ProcessTime 之分,一般来说 EventTime 是从原始消息中提...原创 2019-12-24 10:34:31 · 5554 阅读 · 2 评论 -
Flink DataStream 内外部数据源的各种情况汇总
一、内置数据源(1)文件数据源在 StreamExecutionEnvironment 中,可以使用 readTextFile 方法直接读取文本文件,也可以使用 readFile 方法通过指定文件 InputFormat 来读取特定数据类型的文件,如 CsvInputFormat。下面的代码演示了使用 readTextFile 读取文本文件import org.apache.flink....原创 2019-12-26 10:05:09 · 3837 阅读 · 0 评论 -
Flink 程序结构 第一篇(共两篇)
我们先从wordcount程序说起下面是一段使用 Flink 实现的 WordCount 代码import org.apache.flink.streaming.api.scala._object WordCount { def main(args: Array[String]): Unit = { val env = StreamExecutionEnvironme...原创 2019-12-27 09:42:14 · 3606 阅读 · 0 评论 -
Flink 程序结构 第二篇(共两篇)
这次接着上次的第一篇继续分享:分区 key 的指定、输出结果和程序触发(4) 分区 key 的指定Flink 的某些转换算子,如 join、coGroup、groupBy 算子,需要先将 DataStream 或 DataSet 数据集转换成对应的 KeyedStream 或 GroupedDataSet,主要目的是将相同的 key 值的数据路由到相同的 pipeline 中,然后进行下一步的...原创 2019-12-30 09:53:38 · 3501 阅读 · 0 评论 -
从零开始搭建一个高可用的 Flink Standalone 集群
一、知识体系导航你当前所在的位置:计算引擎 - Flink - 环境部署二、Flink 这么牛逼 它到底能干嘛本来打算在安装好的 Flink 集群上直接修改的,这样我增加个配置,这篇文章就完成了,考虑到大家可能对 Flink 不太了解,也不一定有兴趣从 0 开始装个 Linux 环境,所以我索性就从0开始配置一整套的环境。然后简单的描述一下什么是 Flink,它能干嘛。现在的互联网...原创 2020-01-15 15:12:51 · 4729 阅读 · 0 评论