
Flink学习实战
学习+实战系列
忆山
从事大数据开发工作
1.高级大数据开发工程师spark、flink、kafka、hive、hbase等
2.搜索服务开发Elasticsearch
等相关大数据工作
展开
-
Flink面试题
关于spark和flink我可能会问这20个问题,当然并不是说简单回答一下就可以了,每一个题都可以引申很多问题,拿第一个问题来说,里面还有很多东西,比如spark的依赖关系是存在什么地方?RDD的宽窄依赖划分等? 因为你如果什么问题都问,问三天三夜都问不完,所以一定有针对性,而且后面一定会有模拟场景现场编程的问题,因为上面的问题都是偏原理的,你不会你也可以背下来,但是编程就考验你的真实水平了,比如给你一个实时计算的场景,让你写出主要的代码实现.这也是为什么我在星球里面很少分享原理性的东西,更多的怎么解决真实原创 2020-05-17 20:17:21 · 5516 阅读 · 1 评论 -
flink介绍
一、基于Flink spark和storm的对比storm、spark streaming、flink都是开源的分布式系统,具有低延迟、可扩展和容错性诸多优点,允许你在运行数据流代码时,将任务分配到一系列具有容错能力的计算机上并行运行,都提供了简单的API来简化底层实现的复杂程度。Apache Storm在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topolo...原创 2019-05-15 10:44:51 · 143 阅读 · 0 评论 -
Flink 本地执行入门
一、maven依赖<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <flink.version>1.6.3</flink.version> <java.version>1.8</j...原创 2019-05-15 21:55:49 · 628 阅读 · 0 评论 -
Flink 编程模型
一、抽象级别Flink提供了不同级别的抽象,以及开发流处理和批处理作业1、最底层的抽象仅仅提供了有状态流,通过过程函数(Process Function)嵌入到DataStream中 API中,用户可以自由的处理来自一个或者多个数据流的事件,并使用一致的容错的状态2、DataStream API(有界或者无界数据集)以及DataSet api无界数据集3、table API 以...翻译 2019-05-16 16:34:13 · 197 阅读 · 0 评论 -
分布式Runtime
一、任务和算子链分布式计算中,flink会将算子(operator)的子task链式组成tasks,每个task由一个线程执行,把算子链化为tasks是一个非常好的优化,他减少了线程之间的通信和缓冲,而且能增加吞吐量降低延迟二、job Manager ,task managers clientsJobManager (也成为master)用来协调分布式计算,负责进行任务调度,协调chec...翻译 2019-05-16 17:02:24 · 172 阅读 · 0 评论