大数据面试题之葵花宝典------Flink中级

最新推荐文章于 2024-01-03 18:35:32 发布

置顶

海鸥~

最新推荐文章于 2024-01-03 18:35:32 发布

阅读量2.1k

点赞数 1

分类专栏： Big Data ------ 面试题文章标签：面试 flink

此文章为海鸥女生原著，转载请留言，并声明出处。

本文链接：https://blog.youkuaiyun.com/Charlie_jun/article/details/108473009

版权

本文详细探讨了Flink如何支持批流一体，通过Flink的CheckPoint机制、分布式快照原理及高效数据交换来保证容错和Exactly-once语义。此外，还分析了Flink在处理数据倾斜、反压以及Kafka连接器的独特之处，展示了Flink内存管理和序列化的优化策略。最后，提出了解决Flink任务延迟、Operator Chains以及Flink 1.9版本新特性的见解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

葵花宝典------Flink中级

1、Flink是如何支持批流一体的？

在这里插入图片描述
本道面试题考察的其实就是一句话：Flink的开发者认为批处理是流处理的一种特殊情况。批处理是有限的流处理。Flink 使用一个引擎支持了DataSet API 和 DataStream API。

2、Flink是如何做到高效的数据交换的？

在一个Flink Job中，数据需要在不同的task中进行交换，整个数据交换是有 TaskManager 负责的，TaskManager 的网络组件首先从缓冲buffer中收集records，然后再发送。Records 并不是一个一个被发送的，二是积累一个批次再发送，batch 技术可以更加高效的利用网络资源。

3、Flink是如何做容错的？

Flink 实现容错主要靠强大的CheckPoint机制和State机制。Checkpoint 负责定时制作分布式快照、对程序中的状态进行备份；State 用来存储计算过程中的中间状态。

4、Flink 分布式快照的原理是什么？

Flink的分布式快照是根据Chandy-Lamport算法量身定做的。简单来说就是持续创建分布式数据流及其状态的一致快照。
在这里插入图片描述

核心思想是在 input source 端插入 barrier，控制 barrier 的同步来实现 snapshot 的备份和 exactly-once 语义。

5、Flink是如何保证Exactly-once语义的？

Flink通过实现两阶段提交和状态保存来实现端到端的一致性语义。分为以下几个步骤：
开始事务（beginTransaction）创建一个临时文件夹，来写把数据写入到这个文件夹里面
预提交（preCommit）将内存中缓存的数据写入文件并关闭
正式提交（commit）将之前写完的临时文件放入目标目录下。这代表着最终的数据会有一些延迟
丢弃（abort）丢弃临时文件
若失败发生在预提交成功后，正式提交前。可以根据状态来提交预提交的数据，也可删除预提交的数据。