00-Flink
universe_ant
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Watermark
一、Time谈及Watermark之前,需要先了解一下Flink中的三种Time,分别是Event Time(事件时间)、摄入时间(Ingestion Time)和Processing Time(处理时间):(图片来自Flink官网)如上图,可以很清晰的了解这三种时间的概念:事件时间:事件发生的时间,数据本身一般会携带的时间,可以从每个事件中获取到事件时间戳; 摄入时间:事...原创 2019-05-31 23:52:15 · 1141 阅读 · 0 评论 -
State
一、State想要回答这个问题,先来看看一段描述:假设我们以Kafka作为数据源,利用Flink做word count计算。考虑下面几个问题:为了精准地计算最终各个单词的出现次数,当由于某种原因导致故障时怎么确保恢复后已计算过的单词不会再次被计入次数? 单词的计数过程是在已计算得到的中间结果的基础上,将正在处理的单词对应的个数加一,那么中间结果保存在哪里?针对第一个问题,可以将Ka...原创 2019-06-02 18:19:12 · 213 阅读 · 0 评论 -
脱离JVM?Hadoop生态圈的挣扎与演化
目录背景JVM存在的问题1. Java对象开销2. 对象存储结构引发的cache miss3. 大数据的垃圾回收4. OOM问题解决方案定制的序列化工具Spark的序列化框架Flink的序列化框架显式的内存管理Flink的内存管理Spark的内存管理缓存友好的计算Flink中的数据结构Spark的数据结构总结参考新世纪以来...转载 2019-06-20 10:52:40 · 598 阅读 · 0 评论 -
Checkpointing
一、Checkpointing下图主要是描述word count的Job逻辑: barrier由source节点发出; barrier会将流上event切分到不同的checkpoint中; 汇聚到当前节点的多流的barrier要对齐; barrier对齐之后会进行checkpointing,生成snapshot; 完成snapshot之后向下游...原创 2019-06-04 18:42:57 · 441 阅读 · 0 评论
分享