Flink问题记录

上手

pom依赖循环递归

pom依赖中:

    <dependency>
      <groupId>org.apache.flink</groupId>
      <artifactId>flink-streaming-java</artifactId>
      <version>${flink.version}</version>
    </dependency>
  • 飘黄:Transitive Uncontrolled Recursion vulnerability with High severity found
  • 在Setting->Editor->Inspections->Security->Vulnerable declared dependency 关闭勾选
    在这里插入图片描述

(“Transitive Uncontrolled Recursion” vulnerability with high severity 是一种安全漏洞,通常发生在应用程序中递归调用不受控制的情况下。这类漏洞可能导致栈溢出或拒绝服务(DoS)攻击,因为递归调用会占用大量内存和处理器资源。
要彻底解决此问题,可以尝试替换安全的依赖版本,我与教程保持一致没有替换,防止后续bug。)

WordCountStreamDemo中readTextFile是deprecated(强烈反对的)

在这里插入图片描述

  • 我使用的JDK17报错无法运行:Unable to make field private final byte[] java.lang.String.value accessible: module java.base does not “opens java.lang” to unnamed module @4b4523f8
  • 这个错误提示表明在尝试使用反射访问 java.lang.String 类的 value 字段时遇到了问题。这是由于Java的模块系统(Java 9及以上版本引入的模块系统)引起的。
  • 退回了JDK8可以运行成功。
    (从 Java 17 开始,模块系统对反射的限制更加严格。如果你正在使用较新的 Java 版本,考虑更新代码或库,以便兼容新的模块系统。)

Flink本地模式开启WebUI

参考链接:https://cloud.tencent.com/developer/article/2260417
无法开启解决方案:https://blog.youkuaiyun.com/Johnson8702/article/details/116747951
启动本地WebUI:

        // 本地模式
        Configuration conf = new Configuration();
        // 指定端口
        conf.setString(RestOptions.BIND_PORT, "8082-8089");
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironmentWithWebUI(conf);
 
 
        // 非本地模式
//        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

pom依赖:

    <dependency>
      <groupId>org.apache.flink</groupId>
      <artifactId>flink-runtime-web</artifactId>
      <version>${flink.version}</version>
<!--      <scope>provided</scope>-->
    </dependency>

有scope,访问UI显示:{“errors“:[“Not found.“]}
删除scope,重新启动项目,查看web界面,显示正常。
在这里插入图片描述
(scope标签详解:https://blog.youkuaiyun.com/yiguang_820/article/details/118214839#:~:text=%E5%9C%A8Maven%E7%9A%84pom)

<think>好的,我现在需要处理用户关于Flink常见面试题及解答的请求。首先,用户明确提到了想了解Flink相关的面试问题,并且之前的引用内容中有三个参考链接,其中引用[1]和[2]直接涉及Flink,而引用[3]是关于消息中间件的,可能与用户需求关联不大,但需要留意是否有相关内容可以借鉴。 首先,我需要确保回答结构清晰,符合用户要求的系统级指令,比如使用正确的中文回答、生成相关问题,以及正确应用LaTeX格式。用户提供的示例中展示了快速排序的问题和代码示例,因此可能需要以类似的格式组织Flink问题和解答。 接下来,我需要回顾用户提供的引用内容。引用[1]列出了Flink的多个面试题,包括应用架构、压测和监控、为什么用Flink、checkpoint存储、exactly-once保证、状态机制、海量key去重、checkpoint与Spark比较、watermark机制、exactly-once实现、CEP、三种时间语义、数据高峰处理。引用[2]详细解答了exactly-once的实现和状态存储,提到了checkpoint机制和状态后端。引用[3]虽然主要讨论RabbitMQ和Kafka,但可能在对比消息系统时提及Flink的应用场景,但暂时可能不相关。 用户的需求是获取Flink常见面试题及答案,因此需要从引用[1]和[2]中提取关键点,并组织成结构化的回答。需要确保每个问题都有简明扼要的解答,同时符合用户要求的引用标注。例如,在回答exactly-once时,需要引用[2],而其他问题可能引用[1]。 同时,用户要求生成相关问题,这些问题应基于已回答的内容,引导用户进一步探索。例如,关于checkpoint机制、状态后端类型、watermark的作用等。 需要注意避免直接复制引用内容,而是用自己的话进行解释,同时保持专业性和准确性。例如,在解释checkpoint存储时,需要说明Flink支持的存储方式,如MemoryStateBackend、FsStateBackend、RocksDBStateBackend,并引用[1]中的相关信息。 此外,用户可能希望了解Flink与其他技术的对比,如与Spark的比较,这也是引用[1]中提到的面试题八,需要简要说明两者的差异,如处理模型(流处理 vs 微批处理)、状态管理、延迟等。 在组织回答时,需分点列出问题和解答,使用清晰的标题,并确保每个解答后有正确的引用标注。例如: ### Flink 的 Checkpoint 机制如何实现容错? 解答内容...[^1][^2] 同时,检查是否有遗漏的重要面试题,如状态机制、CEP、时间语义等,确保覆盖引用[1]中列出的所有相关题目。对于每个问题,需提供足够的信息,但不过于冗长,保持简洁。 最后,生成的相关问题需要与已回答的内容紧密相关,帮助用户深入理解。例如,关于exactly-once的实现细节、状态后端的选择、Watermark处理乱序数据的方法等。 总结步骤: 1. 从引用[1]中提取所有Flink相关面试题,并排序优先级。 2. 根据引用[1]和[2]的内容,为每个问题撰写简明解答,正确标注引用。 3. 确保使用正确的中文和LaTeX格式(如需要数学表达式,但Flink可能较少涉及,需注意)。 4. 生成相关问题,促进进一步学习。 5. 检查结构是否符合用户示例,分点清晰,代码块正确(如有示例代码,但Flink问题可能更多是理论,可能不需要代码)。 6. 确保引用标注自然,如解答末尾添加[^1][^2]等。 现在需要执行这些步骤,整合信息,形成用户所需的回答。</think>### Flink 常见面试题及解答 #### 1. **Flink 如何实现 exactly-once 语义?** Flink 通过 **Checkpoint 机制**实现 exactly-once 语义。具体流程如下: 1. **屏障(Barrier)插入**:Source 端将数据流划分为多个检查点周期,并在每个周期插入屏障。 2. **状态快照**:算子接收到屏障时,异步保存当前状态到持久化存储(如 HDFS、S3)。 3. **两阶段提交(2PC)**:与外部系统交互时,通过 2PC 协议保证事务的原子性,确保数据精准一次写入[^1][^2]。 > **示例代码(状态保存逻辑)**: > ```java > env.enableCheckpointing(5000); // 每 5 秒触发一次 Checkpoint > env.getCheckpointConfig().setCheckpointStorage("hdfs://path/"); > ``` --- #### 2. **Checkpoint 与 Savepoint 的区别?** | **特性** | **Checkpoint** | **Savepoint** | |----------------|-------------------------------|------------------------------| | **用途** | 容错恢复 | 手动备份/版本升级 | | **存储格式** | 二进制(Flink 内部) | 兼容性格式(支持版本迁移) | | **触发方式** | 自动周期触发 | 手动触发 | | **性能影响** | 低开销 | 较高开销 | --- #### 3. **Flink 的状态后端有哪些类型?** - **MemoryStateBackend**:状态存储在堆内存,适用于测试和小规模场景。 - **FsStateBackend**:状态存储在文件系统(如 HDFS),异步持久化。 - **RocksDBStateBackend**:基于 RocksDB 的本地磁盘存储,支持大状态和增量 Checkpoint[^1][^2]。 --- #### 4. **Watermark 的作用及生成方式?** Watermark 用于处理**事件时间乱序**问题,标记“在此时间之前的数据已到达”。 **生成方法**: ```java DataStream<T> stream = input .assignTimestampsAndWatermarks( WatermarkStrategy .<T>forBoundedOutOfOrderness(Duration.ofSeconds(5)) .withTimestampAssigner((event, ts) -> event.getTimestamp()) ); ``` --- #### 5. **Flink 的窗口类型及适用场景?** - **滚动窗口(Tumbling)**:固定大小、不重叠,如每分钟统计销售额。 - **滑动窗口(Sliding)**:固定大小、可重叠,如每 10 秒统计最近 1 分钟的 UV。 - **会话窗口(Session)**:根据数据间隔动态划分,适用于用户行为分析。 --- #### 6. **如何实现 Flink 海量 Key 去重?** - **状态存储 + TTL**:使用 `ValueState` 或 `MapState` 记录已处理数据,并设置过期时间(TTL)。 - **布隆过滤器(Bloom Filter)**:通过位数组和哈希函数实现低内存占用的近似去重[^1]。 --- #### 7. **Flink 与 Spark Streaming 的核心区别?** | **维度** | **Flink** | **Spark Streaming** | |----------------|-------------------------------|-------------------------------| | **处理模型** | 真正的流处理(逐条处理) | 微批处理(按批次处理) | | **延迟** | 毫秒级 | 秒级 | | **状态管理** | 原生支持 | 依赖外部存储(如 Redis) | ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值