
flink
文章平均质量分 76
架构师老狼
资深架构师,专注于区块链、微服务、大数据研究!坚定信念,乐观心态,永不止步!
展开
-
Spark+Flink+Iceberg打造湖仓一体架构实践探索
数据湖-大数据生态杀青数据仓库的痛点只能存储结构化数据,无法采集存储非结构化数据无法存储原始数据,所有的数据须经过ETL清洗过程离线数仓的数据表牵一发而动全身,数据调整工程量大实时数仓存储空间有限,无法采集和存储海量实时数据回溯效率低下,实时数据和离线数据计算接口难以统一Kafka 做实时数仓,以及日志传输。Kafka 本身存储成本很高,且数据保留时间有时效性,一旦消费积压,数据达到过期时间后,就会造成数据丢失且没有消费到将实时要求不高的业务数据入湖、比如说能接受 1-10 分钟的延迟。因原创 2022-03-16 17:47:40 · 5869 阅读 · 2 评论 -
Flink分布式缓存
分布式缓存Flink提供了一个分布式缓存,类似于hadoop,可以使用户在并行函数中很方便的读取本地文件,并把它放在taskmanager节点中,防止task重复拉取。 此缓存的工作机制如下:程序注册一个文件或者目录(本地或者远程文件系统,例如hdfs或者s3),通过ExecutionEnvironment注册缓存文件并为它起一个名称。 当程序执行,Flink自动将文件或者目录复制到所有taskmanager节点的本地文件系统,仅会执行一次。用户可以通过这个指定的名称查找文件或者目录,然后从taskma原创 2021-07-09 11:00:15 · 373 阅读 · 0 评论 -
Flink检查点机制与状态管理
1 检查点机制1.1 CheckPoints为了使 Flink 的状态具有良好的容错性,Flink 提供了检查点机制 (CheckPoints) 。通过检查点机制,Flink 定期在数据流上生成 checkpoint barrier ,当某个算子收到 barrier 时,即会基于当前状态生成一份快照,然后再将该 barrier 传递到下游算子,下游算子接收到该 barrier 后,也基于当前状态生成一份快照,依次传递直至到最后的 Sink 算子上。当出现异常后,Flink 就可以根据最近的一次的快照数据原创 2021-07-07 14:29:03 · 1277 阅读 · 1 评论 -
Flink Window API
窗口(window)就是将无限流切割为有限流的一种方式,它会将流数据分发到有限大小的桶(bucket)中进行分析window类型时间窗口(Time Window)滚动时间窗口滑动时间窗口会话窗口2.计数窗口(Count Window)滚动计数窗口滑动计数窗口滚动窗口(Tumbling Windows)将数据依据固定的窗口长度对数据进行切分时间对齐,窗口长度固定,没有重叠滑动窗口(Sliding Windows)滑动窗口是固定窗口的更广义的一种形式,滑动窗口由.原创 2021-06-30 13:32:37 · 134 阅读 · 0 评论 -
Flink运行架构
运行时组件作业管理器(JobManager)控制一个应用程序执行的主进程,也就是说,每个应用程序都会被一个不同的JobManager 所控制执行JobManager 会先接收到要执行的应用程序,这个应用程序会包括:作业图(JobGraph)、逻辑数据流图(logical dataflow graph)和打包了所有的类、库和其它资源的JAR包JobManager 会把JobGraph转换成一个物理层面的数据流图,这个图被叫做“执行图”(ExecutionGraph),包含了所有可以并发执行的任务原创 2021-06-29 16:50:37 · 125 阅读 · 0 评论