记一次flink任务因sink表被锁住而引发的flink雪崩问题

Flink任务雪崩问题排查与解决

最新推荐文章于 2025-11-29 11:54:17 发布

转载最新推荐文章于 2025-11-29 11:54:17 发布 · 13 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://yours.tools/zh/formatxml.html

文章标签：

#it

问题现象

　　前段线上用户频繁反馈，flink任务运行一段时间就失败了。然后查看flink UI管理界面，发现整个taskmanager都挂了

问题分析

　　收集了用户flink日志，主要是taskmanager日志

发现非内存因素OOM的，而是自主退出的。

关键因素由于取消任务超时180s引起的，taskmanager误判服务异常，自主退出

接着跟踪日志，找到经过多次重试，尝试恢复任务的地方

第一次重试

第二次重试，刚好间隔60s

总共重试3次了。超过180s

taskmanager打印退出日志

排查到根因是因为mysql业务操作引起的sink表被锁住导致无法写入。

接着排查60s时间，询问客户发现配置的数据源的socketTimeout为60s，对于实时场景，该超时时间过大了。

解决方案

　　业务层面，告知用户flink实时任务，尽量保证链路的纯粹，不要因为类似操作影响实时性。

　　flink层面：默认180s取消任务超时时间适当调大一些，task.cancellation.timeout

　　数据源层面： socket超时时间，不要过长，不然容易引起任务线程IO阻塞等待过大，无法及时响应一些内部状态变更，从而引发雪崩。　　

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

cmdos

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

flink与kafka基础知识

2403_83630621的博客

07-31

1825

Flink是一个分布式实时计算框架。用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。有状态：有状态计算是将当前批次结果加上上一批次计算的结果。无界流有定义流的开始，但没有定义流的结束(没有边界)。它们会无休止地产生数据。流处理。有界流有定义流的开始，也有定义流的结束。有界流(假如1000条数据)，即可批处理(一次处理一批)，也可以流处理(一条一条处理)。任意规模进行计算：指的是flink主从节点。jobmanager:driver端。

参与评论您还未登录，请先登录后发表或查看评论

Flink 第8.4章 Flink Join 精讲

青冬的博客

05-07

4759

序参考： Flink 中文社区预计阅读时间：15min，共5700字。 Join Join 语义以及实现现在有很多的成熟方案，然而近年来，实时流之间的Join 却是刚刚起步。在 Join 之中，最重要的就是我们一般实现 join 需要依赖于缓存整个数据集，但是在实时数据中，他是一个无限的数据流，内存压力和计算效率在长时间运行时，都会带来不可避免的问题。那么我们先讲讲对于 Join的基础知识。 Batch SQL Join 传统的离线Batch SQL 有三种基础的...

Flink常见机制

qq_42009405的博客

02-10

2520

反压机制 Flink在1.5版本之前是基于TCP的流量控制和反压的。缺点：一个TaskManager执行的一个Task触发反压，该TaskManager和上游TaskManager的Socket就不能传输数据，从而影响到其他Task，也会影响到Barrier的流动，导致作业雪崩。在1.5版本之后，Flink是基于信用值的流量控制和反压的，接收端会给发送端授予一定信用值，发送端一但接受到信用通知，就会在信用值所允许的范围内尽可能多的向接收端发送数据，且附带上发送端的积压量。接收端会依据发送端的积压量信息

Flink2.0学习笔记：使用HikariCP 自定义sink实现数据库连接池化

livemegoodboy的博客

08-23

1296

Flink2.0学习笔记：使用HikariCP 自定义sink实现数据库连接池化

Flink规则引擎实践分享

weixin_38836273的博客

04-28

4614

Flink规则引擎实践分享文章目录Flink规则引擎实践分享一、实时规则引擎架构***二、规则抽象模型三、规则、条件查询封装**3.1规则封装3.2 查询规则封装四、使用ClickHouse来存放明细并实现查询服务支持4.1 ClickHouse从Kafka摄取数据4.2 ClickHouse查询服务中的sql设计**4.3 ClickHouse查询时间跨度问题与解决**4.4 查询路由模块**五、项目中优化的点5.1 规则匹配方式优化5.2 行为明细规则匹配查询CK并发过高的解决方案 Java、大数

Flink Sql教程（7）

狄杰的博客

06-03

4405

Redis异步维表概述之前和大家聊过维表，也聊过FLINK中如何使用维表，目前FLINK自带的维表有两种，一种是JDBC维表，一种是HBASE维表。其中JDBC维表支持缓存，HBASE暂不支持两种维表也都是同步维表，性能较弱我之前也说过会在后面的教程实现以下异步第三方维表，加上一个叫啤酒鸭的问我相关的问题，就抽空写了一把 redis异步客户端我用的是Lettuce，大家也可以用Redission，Jedis是同步的，大家千万注意不过和我之前说的一样，缓存会遇到旧数据的问题，所以也相当于给大家留了

Qwen3-32B对接Kafka/Flink技术方案

weixin_42599558的博客

11-29

377

本文介绍如何通过Kafka与Flink构建高效、稳定的Qwen3-32B大模型推理系统。利用Kafka实现请求削峰填谷与解耦，Flink实现精准调度与状态管理，支持高并发、低延迟的生产级AI服务，适用于金融、研发、科研等场景。

Apache Flink在 bilibili 的多元化探索与实践

阿里云云栖号

05-19

1212

简介：bilibili 万亿级传输分发架构的落地，以及 AI 领域如何基于 Flink 打造一套完善的预处理实时 Pipeline。本文由 bilibili 大数据实时平台负责人郑志升分享，本次分享核心讲解万亿级传输分发架构的落地，以及 AI 领域如何基于 Flink 打造一套完善的预处理实时 Pipeline。本次分享主要围绕以下四个方面：一、B 站实时的前世与今生二、Flink On Yarn 的增量化管道的方案三、Flink 和 AI 方向的一些工程实践四、未来的发展与思考 ..

腾讯看点基于 Flink 构建万亿数据量下的实时数仓及实时查询系统

过往记忆大数据

10-07

1554

使用故障树分析法诊断flink任务延迟故障问题的原因，source和sink都是kafka,可能涉及的第三方交互有读redis，读hbase，请求dubbo

04-23

嗯，用户想用故障树分析法诊断Flink任务的延迟问题，涉及Kafka、Redis、HBase和Dubbo。首先，我需要回忆一下故障树分析的基本步骤，应该是从顶层事件开始，逐步分解可能的原因。 Flink任务延迟的顶层事件是任务处理...

CheesyFabric_deepdive_analyst_7984_1764666209192.zip

12-03

CheesyFabric_deepdive_analyst_7984_1764666209192.zip

【卫星抗干扰】一种用于全球导航卫星系统反欺骗的空时融合方法【附MATLAB代码】.rar

12-03

1.版本：matlab2014a/2019b/2024b 2.附赠案例数据可直接运行。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

遗传算法重新配置配电网络（IEEE 33和69总线系统.zip

最新发布

12-03

windows下定期自动清空某个文件夹（比如在公司电脑上定期清空微信的聊天记录）

12-03

windows下定期自动清空某个文件夹（比如在公司电脑上定期清空微信的聊天记录）

网络爬虫基于Python的豆瓣电影Top250数据采集：使用Requests与BeautifulSoup实现网页内容解析

12-03

内容概要：本文通过一个简单的Python爬虫实例，演示了如何使用requests库发送HTTP请求，获取豆瓣电影Top250页面的数据，并利用BeautifulSoup解析HTML内容，提取出中文电影名称。代码实现了基本的网页抓取与数据清洗流程，包括设置请求头模拟浏览器行为以应对简单反爬机制、解析响应文本以及过滤非中文片名，最终输出纯净的电影标题列表。; 适合人群：具备Python基础语法知识，对网络爬虫感兴趣的初学者或刚入门的数据采集学习者；适合学习Web数据获取的基本流程和技术栈。; 使用场景及目标：①学习如何使用requests发起网络请求并携带请求头信息；②掌握BeautifulSoup进行HTML结构化解析的方法；③理解网页内容提取与数据过滤的基本逻辑，为后续深入学习爬虫框架（如Scrapy）打下基础。; 阅读建议：建议读者在本地环境中配置好相关库（requests、BeautifulSoup），动手运行并调试代码，尝试修改选择器或目标网站以加深理解，同时注意遵守网站的robots协议，合理控制请求频率。

基于粒子群优化算法的p-Hub选址优化（Matlab代码实现）

12-03

内容概要：本文介绍了基于粒子群优化算法（PSO）的p-Hub选址优化问题的研究与实现，重点解决在考虑不确定性因素下的集群式物流或交通网络中枢纽节点（Hub）的选址优化问题。通过构建数学模型，结合Matlab编程实现粒子群算法对p-Hub选址问题进行求解，旨在最小化网络总体运输成本并提升系统效率。文章涵盖了问题建模、算法设计、参数设置及仿真结果分析全过程，展示了PSO在复杂组合优化问题中的应用能力。; 适合人群：具备一定运筹学、优化算法基础，熟悉Matlab编程，从事物流网络设计、智能算法研究或交通系统优化等相关领域的研究生、科研人员及工程技术人员。; 使用场景及目标：①掌握p-Hub选址问题的基本理论与建模范式；②学习如何基于粒子群优化算法的p-Hub选址优化（Matlab代码实现）将粒子群优化算法应用于实际网络优化问题；③通过Matlab代码实现理解智能优化算法的编码流程与调参技巧；④为物流、通信、航空等枢纽网络设计提供解决方案参考。; 阅读建议：建议读者结合文中提供的Matlab代码逐行理解算法实现细节，尝试调整参数或引入其他改进策略（如自适应权重、混合算法）以提升优化性能，同时可扩展至带容量约束、多分配或多目标的Hub选址问题进行深入研究。

（41页PPT）某高校智算中心解决方案.pptx

12-03

（41页PPT）某高校智算中心解决方案.pptx

（42页PPT）社会治理信息平台整体解决方案.pptx

12-03

（42页PPT）社会治理信息平台整体解决方案.pptx

audio文件，uniapp + 微信小程序 + vue3 + 音频播放器 + 状态管理，支持Android、iOS与鸿蒙OS，全局单例模式

12-03

解压后放 uni_modules 文件下关联文章： uniapp + 微信小程序 + vue3 + 音频播放器 + 状态管理，支持Android、iOS与鸿蒙OS，全局单例模式链接：https://blog.youkuaiyun.com/xuelong5201314/article/details/155532748?spm=1011.2415.3001.10575&sharefrom=mp_manage_link

Flink连接Redis Sink支持数据过期时间增强版

资源摘要信息:"flink-connector-redis_2.11-1.1-SNAPSHOT是一个专门为Apache Flink设计的连接器（connector）的软件包。这个软件包的目的是允许Apache Flink应用与Redis数据库进行集成，充当数据输出的接收器（sink...