Flink学习
Running-小猛
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flink流式处理框架中的Table API和Flink SQL
一、Table API和Flink SQL是什么?1)Flink对批处理和流处理,提供了统一的上层API;2)Table API是一套内嵌在Java和Scala语言中的查询API,它允许以非常直观的方式组合来自一些关系运算符的查询;3)Flink的SQL支持基于实现了SQL标准的Apache Calcite;1、基本程序结构1)Table API和SQL的程序结构,与流式处理的程序结构十分类似2、创建TableEnvironment1)创建表的执行环境,需...原创 2020-06-20 15:44:52 · 1189 阅读 · 0 评论 -
Flink流式处理框架中的CEP介绍
一、什么是CEP1)复杂事件处理(Complex Event Processing,CEP);2)Flink CEP是在Flink中实现的复杂事件处理(CEP)库;3)CEP允许在无休止的事件流中检测事件模式,让我们有机会掌握数据中重要的部分;4)一个或多个由简单事件构成的事件流通过一定的规则匹配,然后输出用户想得到的数据——满足规则的复杂事件;二、CEP的特点1)目标:从有序的简单事件流中发现一些高阶特征;2)输入:一个或多个由简单事件构成的事件流;3)处理:...原创 2020-06-18 16:10:43 · 2415 阅读 · 0 评论 -
Flink流式框架的状态一致性
一、状态一致性1)有状态的流处理,内部每个算子任务都可以有自己的状态;2)对于流处理器内部来说,所谓的状态一致性,其实就是我们所说的计算结果要保证准确;3)一条数据不应该丢失,也不应该重复计算;4)在遇到故障时可以恢复状态,恢复以后进行重新计算,结果应该也是完全正确的;1、状态一致性分类(1)AT-MOST-ONCE(最多一次) 》》当任务故障时,最简单的做法就是什么也不干,既不恢复丢失的状态,也不重播丢失的数据,At-most-once语义的含义是最多处理一次事件。..原创 2020-06-18 10:54:18 · 608 阅读 · 0 评论 -
Flink流式框架的容错机制
一、一致性检查点(checkpoint)1)Flink故障恢复机制的核心,就是应用状态的一致性检查点;2)有状态流应用的一致检查点,其实就是所有任务的状态,在某个时间点的一份拷贝(一份快照);这个时间点,应该是所有任务都恰好处理完一个相同的输入数据的时候;二、从检查点恢复状态1)在执行流应用程序期间,Flink会定期保存状态的一致检查点;2)如果发生故障,Flink将会使用最近的检查点来一致恢复应用程序的状态,并重新启动处理流程;1、从检查点恢复状态1)遇到故障.原创 2020-06-18 09:12:30 · 269 阅读 · 0 评论 -
Flink流式框架的状态管理
一、Flink中的状态1)由一个任务维护,并且用来计算某个结果的所有数据,都属于这个任务的状态;2)可以认为状态就是一个本地变量,可以被任务的业务逻辑访问;3)Flink会进行状态管理,包括状态一致性、故障处理以及高效存储和访问,以便开发人员可以专注于应用程序的逻辑;4)在Flink中,状态始终与特定算子相关联;5)为了使运行时的Flink了解算子的状态,算子需要预先注册其状态;6)总的来说,有两种类型的状态: **** 算子状态(Operator State):...原创 2020-06-17 21:47:42 · 483 阅读 · 0 评论 -
Flink流式框架中的时间语义和watermark
一、时间(Time)语义1)Event Time:事件创建的时间;2)Ingestion Time:数据进入Flink的时间;3)Processing Time:执行操作算子的本地系统时间,与机器相关;1、哪种时间语义更重要1)不同的时间语义有不同的应用场合;2)我们往往更关心事件时间(Event Time);3)某些应用场合,不应该使用Processing Time4)Event Time可以从日志数据的时间戳(timestamp)中提取 ...原创 2020-06-17 21:08:38 · 359 阅读 · 0 评论 -
Flink流式计算框架中的窗口函数
一、窗口(window)(1)一般真实的流都是无界的,怎样处理无界的数据?(2)可以把无限的数据流进行切分,得到有限的数据集进行处理——也就是得到有界流;(3)窗口(window)就是将无限流切割为有限流的一种方式,它会将流数据分发到有限大小的桶(bucket)中进行分析;二、window类型(1)时间窗口(Time Window):滚动时间窗口,滑动时间窗口,会话窗口;(2)计数窗口(Count Window):滚动计数窗口,滑动计数窗口;1、滚动窗口(Tumb..原创 2020-06-17 17:02:54 · 1437 阅读 · 0 评论 -
流计算框架Flink的运行架构
一、Flink运行时的组件1、作业管理器(JobManager)1)控制一个应用程序执行的主进程,也就是说,每个应用程序都会被一个不同的JobManager所控制执行。2)JobManager会先接收到要执行的应用程序,这个应用程序会包括:作业图(JobGraph)、逻辑数据流图(logical dataflow graph)和打包了所有的类、库和其他资源的JAR包。3)JobManager会把JobGraph转换成一个物理层面的数据流图,这个图被叫做“执行图”(Execution.原创 2020-06-15 17:10:49 · 496 阅读 · 0 评论 -
流处理框架Flink介绍
一、什么是FlinkApache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams.Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。二、那我们为什么选择Flink呢?1)流数据可以更加真实的反映了我们的生活方式;2)传统的数据架构是基于有限数据集的;.原创 2020-06-15 15:42:32 · 775 阅读 · 0 评论
分享