九师兄-优快云博客

原创【Flink】Flink 1.18 任务提交目录.flink目录过大

今天看了一个现场环境，然后对方因为Hadoop问题，然后导致一直无法提交任务到yarn上，日志阻塞如下来来回回的打印这个日志，看着一直在上传jar包。比如这个日志上传的是注意这个目录不是本地目录是远程目录。使用如下命令查看发现这个目录下有很多的提交jar包目录，每次提交都生成一个然后查看任意一个，里面基本都是flink程序的依赖包信息。但是这个目录非常大，然后我就想知道这个目录难道不会被清理吗？

2025-06-12 00:30:00 103

原创【hadoop】hadoop no lease on /xx/zookeeper.jar._COPYING_ inode 42060 file does not exist holder DFSC

在执行脚本时使用HDFS命令将JAR文件推送到远程时出现了问题。检查HDFS用户：验证您正在使用的HDFS用户是否具有足够的权限来推送文件。您可以使用chown命令更改文件所有者或使用sudo命令以超级用户身份执行推送操作。检查文件路径：确保要推送的JAR文件路径是正确的，并且该文件确实存在。检查文件权限：确保您具有足够的权限来访问和推送文件。您可以使用chmod命令修改文件权限以确保您具有适当的访问权限。检查HDFS状态：确认HDFS服务正常运行，并且有足够的可用空间来放置您要推送的JAR文件。

2025-06-12 00:15:00 12

原创【Flink】Flink 头部算子Busy、Mailbox Busy

20240117今天在社区里面，看到一个头部算子Busy、Mailbox Busy的问题，然后这个引起了一些疑问，但是也能梳理一下代码，因此看看这个异常的节点是source 节点，source 一直是100% 这是不正常的这说明下游算子处理速度较慢。

2025-06-11 00:30:00 142

原创【Flink】Flink杀死yarn任务报错 User root cannot perform operation MODIFY_APP on application_xxx

出现这个问题的背景是，一个现场环境，这个现场环境有kerberos认证，然后我们的代码做了相关适配，然后开始是能正常提交任务和关闭任务的。但是现场的人不干好事，把一个集群硬生生玩坏了，然后他们就把认证关闭了，幸好我们的程序也可以根据参数关闭认证，然后关闭后，我们直接调用认证的方式是然后报错详情报错如下这个错误提示表明用户root尝试执行一个名为MODIFY_APP的操作，但被拒绝了，因为该用户没有权限执行这个操作。

2025-06-11 00:15:00 17

原创【PostgreSQL】PostgreSQL命令行下如何修改某个模式下的字段长度

在有些环境下，我们无法使用远程工具连接PostgreSQL，需要手动修改现场的某些表结构信息。如果我们的数据库如下，那么我们需要再命令行中一步一步的找到我们需要的吗。首先输入用户名和数据库，然后输入密码，进入数据库。然后再看字段信息，长度已经发生变化。然后可以选择我们进入那个数据库。然后可以查看所有的数据库信息。然后可以设置我们使用哪个模式。然后可以执行我们的修改语句。

2025-06-08 00:30:00 261

原创【MySQL】MySQL如何修改连接数

在有些情况下，我们的MySQL连接数不足，怎么修改MySQL连接数呢？

2025-06-08 00:15:00 28

原创【Hadoop】Hadoop Yarn 报错 SaslException GSS initiate failed

一个对接环境，今天发现无法提交flink任务了，这个环境有kerberos认证。这个错误日志表明在连接到名为 qhsec10045、IP地址为 192.168.100.45、端口为 23140 的服务器时，出现了一些问题。具体错误是 GSS 初始化失败，这通常与 Kerberos 身份验证有关。以下是关键信息的简要解释：：错误发生在 Hadoop 的 IPC（Inter-Process Communication）客户端的设置中，具体是在连接到某个服务器时。： GSS 是 Generic Securit

2025-06-07 09:42:39 19

原创【MySQL】 Data source rejected establishment of connection, message from server Too many connection

今天一个现场MySQL报错说是查询数据错误开始以为是数据库连接不上，对方说程序有时候能跑起来，有时候不能跑起来，然后看这个报错是数据库查询出问题了。开始怀疑是数据库不稳定，然后多次重启后面都不能启动。然后查看数据库连接信息，在启动的时候查看发现最大连接数是500，然后Threads_connected是200，看着不是那么大，然后一时间没有思路，然后仔细查看日志，发现有如下报错详情信息如下这个错误表明你的 MySQL 服务器已经达到了最大连接数，无法再接受新的连接请求。

2025-06-07 09:41:13 21

原创【Linux】记录一次Linux 脚本突然不能执行问题

一个身经百战的脚步，这个脚步在32个现场部署过，并且没有改动，然后本次现场突然不能执行了，在今天之前的某天还能执行，但是现在不行了。后来一直找不到原因，然后从其他正常环境拷贝脚本到这个环境就好了，真的特别神奇，特别的郁闷，没找到根本原因。结果发现版本都是一样的，那么是不是shell版本不一致呢？我们又看看shell版本。而且就算你把这行注释掉下面也会报错。我们怀疑和linux版本有关，因此看看版本。第127行对应的代码如下，一个简单的echo操作。

2025-06-07 09:40:44 18

原创【Maven】parent.relativePath of POM xxx points at instead of please verify your project structure

我的项目最近刷新项目的时候总是有问题报警信息关键是我想刷新一下项目，或者重新拉一下代码，因为报错这个会导致后续的都不拉取仓库了。我开始以为是ssh-close包无法下载，后来发现不是的，这个包压根没有，我也没有引入，但是不知道为啥总是找这个。后来发现：这个报警其实可以忽略，但是作为强迫症的同学来说真的很不习惯！！！解决的方式也很简单。

2025-06-07 09:39:48 35

原创【Flink】Flink Savepoint执行流程-服务器执行请求

在上一篇文章中，我们知道了Flink执行savePoint是怎么一步一步的将Savepoint请求发送到服务器的，下面我们看卡服务器接受到Savepoint请求是怎么执行的。在stopWithSavepoint方法中我们主要做了我们停止检查点协调器，然后触发检查点。在下面方法中我们首先获取master节点的网关，然后把请求发送给master。然后stopWithSavepoint这个方法有2个实现类，我们先看。然后JobMaster就收到了这个请求，然后调用。后面的比较复杂了，下次有空，分章节分析。

2025-06-04 00:30:00 33

原创【Flink】Flink Savepoint执行流程-客户端发送请求到服务器

我们知道我们执行如下命令就可以产生一个SavePoint，那么这个流程会是什么样的呢？然后在里面解析参数并行执行然后在savepoint方法里面做参数解析和一些配置，其中主要有2个重要配置然后就触发我们的检查点然后是发生请求，等待报错或者正常发生请求调用的是方法然后是两阶段执行Savepoint这段代码触发 Flink 的 Checkpoint 是分为两个阶段的。

2025-06-04 00:15:00 221

原创【Flink】Flink提交任务到hadoop、阻塞提交

今天看了一个现场环境，然后对方因为Hadoop问题，然后导致一直无法提交任务到yarn上，日志阻塞如下日志详情如下这个hadoop集群是别人的，然后我们的flink要体检任务到别人的集群，和对方掰持了很久，我说我们提交任务到yarn，然后yarn属于hadoop，你现在hdfs集群有问题，导致我们无法提交任务到yarn，然后对方说你只使用我们的kafka集群，kafka是好的呀，和这个有什么关系，我一脸懵逼，觉得他们的运维太low了。

2025-06-02 14:56:18 24

原创【FLink】FLink KryoException在FLink中使用我们自定义的实体类、Pojo类

是这样的，我们有个系统，采用的是实体类，以前我们是使用实体类传参。实体类如下然后报错这个错误通常是由于 Flink 作业尝试对一个未在 Flink 序列化注册中的类进行序列化或反序列化引起的。当 Flink 使用 Kryo 序列化器时，它需要知道将要序列化或反序列化的所有类。注册类: 确保你使用的所有自定义类都已经注册到 Flink 的 Kryo 注册器中。这可以通过 Flink 的 ExecutionConfig 进行配置，手动注册类，例如：flink 低版本flink高版本。

2025-06-02 14:56:00 430

原创【Flink】Flink提交任务到kerberos认证的yarn集群卡在提交过程

Slow waitForAckedSeqno took 37735ms: 表示等待确认序列号的操作花费了37,735毫秒，超过了设定的阈值。以前也会打日志，但是打了四五十行，然后就提交成功了，但是没有报错warn,现在提示这个warn，怀疑是hadoop有问题了。threshold=30000ms: 阈值是30,000毫秒，这是一个预定义的时间，用于标识等待确认序列号的最大允许时间。在前一段时间搞了flink提交任务到kerberos认证的yarn集群，今天某个现场原先能运行的任务，现在突然卡住了。

2025-05-29 00:30:00 30

原创【Flink】Flink怎么查看我们的流任务某个并行度运行到那个机器了

然后我们继续往后面看，这个host是数字，代表运行在第几台机器，这个在TaskManager中是一对一的，在TaskManager列表中是按照从上往下的顺序1,2,3,4等机器排序的，但是如果你是docker容器，那么这里是一样的，都是1，因为是宿主机，不是docker容器。如果我们想知道运行到哪个容器上呢？我们点开SubTasks这里，左边的ID是任务的并行度ID，然后右边是数据处理，可以看到我们这个并行度处理的数据量很大，说明这个节点发生了数据倾斜。那么我们的任务运行到哪里了呢？

2025-05-29 00:15:00 133

原创【Flink】Flink使用MapState最数据join操作

里面有个简单的图示案例。最简单的例子：aaa 在一号流中的 value 和二号流的 value 相加，再输出到下游，如下图所示，一号流中的 value 存入 state，在二号流中取出并相加，将结果输出给下游：我有这个疑问：这个状态是全局的还是每个并行度一份呀？于是我做了几个案例。

2025-05-28 00:30:00 32

原创【guava】guava数据过期是集体过期吗？会导致缓存穿透吗？

使用Guava缓存已经很久了，今天突然想到guava数据过期是集体过期吗？如果是集体过期会不会产生缓存穿透？

2025-05-28 00:15:00 132

转载【Elasticsearch】ElasticSearch 的使用建议

最近十年，Elasticsearch 已经成为了最受欢迎的开源检索引擎，并沉淀了大量的实践案例及优化总结。在本文中，我们尽可能全面地总结了 Elasticsearch 日常开发中的一些重要实践&避坑指南，希望能为大家提供 Elasticsearch 使用上的一些借鉴点，欢迎讨论！

2025-05-23 00:30:00 31

原创【Flink】Flink客户端日志名称怎么确定的？

环境变量来设置 Java 运行时的选项，其中 -Dlog.file.name=my_fixed_log_name.log 设置了日志文件的名称为 my_fixed_log_name.log。在 Flink 的 YARN 会话模式（yarn-session）中，日志的名称通常包括随机生成的标识符，这是为了确保在多个任务和多个会话之间不发生日志名称冲突。如果我们已经设置了，那么就是我们设置的值，因为我们没有设置，而且如果你使用的是宿主机，那么这个位置是固定的。这些变量的组合形成了日志文件的名称。

2025-05-23 00:30:00 268

转载【Elasticsearch】自动生成的文档 _id：重复是一个问题吗？

当你在未指定 ID 的情况下对文档建立索引时，Elasticsearch 会自动为该文档生成唯一的 ID。该 ID 是 Base64 编码的 UUID，由多个部分组成，每个部分都有特定的用途。ID 生成过程针对索引速度和存储效率进行了优化。负责此过程的代码可以在 GitHub 上的 Elasticsearch 的 TimeBasedUUIDGenerator 类中找到。

2025-05-23 00:15:00 18

原创【Flink】FLink的runInCoordinatorThread方法报错线程池拒绝rejected

这里看着所有的数据都是0，然后拒绝连接了，报错的位置位于runInCoordinatorThread。那么看看这个线程池是怎么做的，但是看着这个线程池最少有一个的，不清楚为啥报错。一个FLink程序报错。

2025-05-23 00:15:00 166

转载【Elasticsearch】Elasticsearch集群健康与指标梳理、API返回信息解释

转载：Elasticsearch集群健康与指标梳理对于运维管理员来讲集群平稳运行非常重要，Elasticsearch提供了health命令和stats统计指标来说明集群是否正常。一、集群健康状况说明通过「_cluster/health」命令能快速了解集群、索引、分片的健康状况，以及这些不健康大体是怎么引起的。复制参数说明level指定查询的层级，可选cluster, indices 和 shards ，默认clusterlocal是否从本地node查询，默认false从master节点查询。

2025-05-22 02:45:00 45

原创【ElasticSearch】ElasticSearch节点嗅探机制实践

我们ES客户端的节点配置初始化从SLB域名切换到静态ip列表，目的是移除对SLB的依赖，但由于人工配置ip列表容易出错，使用ElasticSearch节点嗅探机制，减少人工操作，提高扩缩容效率。

2025-05-22 01:15:00 24

原创【Flink】FLink cdc报错 requested WAL segment xxx has already been removed

这个错误表明在 PostgreSQL 复制和 Write-Ahead Logging（WAL）机制的上下文中出现了问题。看起来是在 Debezium PostgreSQL 连接器的使用过程中发生的。WAL 段是 PostgreSQL 复制机制的关键部分，用于跟踪对数据库的更改。在应用任何更改到生产系统之前，请在非生产环境中进行充分的测试。此外，请查阅 PostgreSQL 和 Debezium 的文档以获取更详细的信息和故障排除指南。

2025-05-22 01:00:00 43

转载【Elasticsearch】故障探测和恢复机制

注：这里的挂掉都是指网卡挂了，并不是被 kill 或者关机，这里两者有本质区别：网卡下线，需要探测时间。

2025-05-22 00:45:00 37

原创【Yarn】Yarn队列内的优先级调度

本文介绍了容量调度中优先级调度的相关知识，其使用范围局限于同一队列中的不同任务，按照优先级进行调度。在 2.9.0 版本中，yarn 支持按队列优先级进行调度，即同一父队列下的多个子队列，其优先级各不相同，调度时，按队列优先级排序，优先从优先级更高的队列中选择任务进行调度，有兴趣的小伙伴，可以深入研究。

2025-05-22 00:30:00 134

原创【表达式】Java 表达式引擎选型调研分析

本文将针对 AviatorScript 、MVEL 、OGNL 、SpEL 、QLExpress 、JEXL 、JUEL 几种常见表达式引擎进行选型调研。先简单介绍一下这几种表达式引擎。综合以上测试结果，AviatorScript，SpEl，MVEL，OGNL 性能表现相对较好。AviatorScript 性能相对较好，表现均衡，但其语法相较其他引擎跟 Java 的差异略大。SpEl 除了在个别场景下性能较差，大部分场景表现非常出色，尤其是在字面量和含有变量的算数计算及方法调用场景下。

2025-05-17 00:30:00 63

原创【Flink】Flink本地运行打印如下日志 too high to satisfy all of the requests

这段代码的主要目的是在内存使用超过阈值时生成警告消息，以提醒用户可能存在内存问题，特别是对网络吞吐量的影响。警告消息提供了一些建议，例如增加可用网络内存或减小网络缓冲池的配置大小。

2025-05-17 00:15:00 30

原创【Flink】Flink报错ApplicationMaster is out of sync with ResourceManager, hence resyncing

有个现场的hadoop有问题，然后他们重建了Hadoop集群，但是flink运行一段时间就报错，主要报错ApplicationMaster is out of sync with ResourceManager, hence resyncing。这里看起来是Hadoop不稳定，然后ResourceManager不停的在切换主备状态，导致程序无法连接。故障转移尝试次数很高（例如，5278 次尝试），这表明系统无法与 ResourceManager 建立稳定连接。

2025-05-15 00:45:00 27

原创【Kafka】Kafka获取消费组位置position()方法卡死

文章讨论了在使用Kafka消费者API时，获取分区偏移量（offset）时可能遇到的超时问题。作者在代码中使用了position方法来获取分区的偏移量，但未设置超时时间，导致程序在某些情况下卡死。通过分析Kafka的源码，作者发现position方法在获取偏移量时会阻塞，直到确定位置或超时。超时时间由default.api.timeout.ms配置项决定，默认值为60000毫秒（60秒）。作者建议在调用position方法时显式设置超时时间，以避免因网络问题或服务器响应延迟导致的程序卡死。

2025-05-15 00:30:00 200

原创【Kafka】Kafka have leader brokers without a matching listener

我们flink消费kafka报错Kafka have leader brokers without a matching listener我们这个报错主要是对方的kafka5个节点，然后崩溃了2个，而我们的topic是，正常情况下，每个分区是在一台机器上均匀分布，但是现在他们崩了2个，导致这两台机器上的topic区分缺失了2个，然后因为没有副本，然后就报错了。

2025-05-08 00:30:00 170

原创【Kafka】Kafka报错 this server does not host this topic-partition

报错信息 “this server does not host this topic-partition” 表明在尝试删除 Kafka 主题时，服务器无法找到相应的主题分区。是这样的我使用kafka 2.3版本，然后使用api删除topic，然后执行报错this server does not host this topic-partition，这个意思是找不到相应的topic。我们的情况是我们是web界面展示topic，所以topic一定是有的，但是不清楚为何会报错这个，可能是同时有别人删除了。

2025-05-08 00:15:00 55

转载【Flink】YARN Container 启动上下文

在 YARN 中，不管是 ApplicationMaster（后面均简称 AM），还是一般的 container（例如 MR 中的 map 任务、reduce 任务；Spark 中的 executor 或者 Flink 中的 TaskManager），都有各自的启动上下文（ContainerLaunchContext）。上下文中包含了任务启动所依赖的资源（包括 jar，资源文件等）、环境变量、启动参数等。

2025-05-07 00:45:00 18

原创【kakfa】kafka 2.x 控制台消费报错 UNKNOWN_TOPIC_OR_PARTITION、删除不存在、创建提示存在

然后他的kafka集群有5台机器，挂了2台，然后他们把kerberos都先关闭了，但是挂的怎么都无法重启成功。20231228日，我负责的一个现场环境，整个环境中病毒了，毒性很深，30多台机器全崩溃的，而且是kerberos认证的环境。而且这个环境有个神奇的地方，重新创建这个topic会报错，提示topic已经存在，但是你又查不到这个topic。因为上面原因，我们消费数据有问题，然后我们消费数据的时候出现问题，因此我就打算重建topic，步骤如下。后面运维手动处理了一下元数据，才呢个查出来。

2025-05-07 00:30:00 174

原创【Flink】No JAAS configuration section named Client was found in specified JAAS configuration

但是这个异常又不影响程序运行。但是这个有什么影响呢？下面我来解释一下，这个是flink认证相关的，他说/tmp/jaas-3331740396007956723.conf 这个文件中不包含一个叫Client的配置。如果有的话，那么就会走认证相关的配置。如果你的环境没有开启kerbeos认证的话，那么是没有什么问题的。

2025-05-07 00:15:00 67

原创【java】java 99.99 临界值的问题、19.990000000000002

我们做flink流计算统计的时候，发现下面这个相加是虽然我们知道double和float是临界值是有精度问题的，但是我们怎么规避这个问题呢？

2025-04-30 21:45:00 43

原创【Elastic】Elastic 为什么建议强制设置master节点

主节点的作用包括集群状态的管理、节点的发现和主节点选举等。我们曾经一度使用的是没有主节点的3个es节点，把我们整得死去活来的，主要是我们当初资源很少，十几个服务都在一台机器，多个docker，3个es节点也在一台宿主机3个docker容器内，当初想的是如果机器挂了，那么都会挂，设置主节点意义不到，后来发现，不设置不行，会有很多问题。集群没有设置主节点，导致创建索引时，数据节点要充当临时主节点的角色，写入量较小的时候，影响不大，当写入压力过大时，会加剧数据节点的负载，影响索引的创建速度。

2025-04-30 15:29:34 55

原创【Spring】浏览器接口报错 net::ERR_CERT_AUTHORITY_INVALID、HandlerExceptionResolver、自定义状态码

这里按理说应该是返回我们的403，而且debug的时候，应该走到我们抛出AcessDeniedException异常的地方，但是实际上什么都没有调用，看起来没有到后端就被拦截了，跨域什么的。然后与前端约定，当出现这个异常的时候，我们把状态码改成403，然后前端发现是403的时候，统一跳转到登录界面。首先用户登录系统，然后查看数据，接口正常情况下，我们返回的是200状态码。然后这里触发了我，因为我是强制删除了缓存信息，是不是证书也被清理了呢？过了很久，都没有找到原因，而且界面看起来是跨域相关的报错。

2025-04-28 00:30:00 171

原创【Flink】ResourceManager within the specified maximum registration duration PT5M

每次出现这种错误，需要人工干预手动重启jobmanager才能解决，不然任务就不运行了。这个错误日志表明 Flink TaskManager 在向 ResourceManager 注册时超时，导致 TaskManager 被终止。具体来说，错误信息是，指示在规定的最大注册持续时间内无法在 ResourceManager 上完成注册。确保 TaskManager 能够与 ResourceManager 正常通信。检查网络配置，确保没有防火墙或其他网络问题导致通信中断。

2025-04-28 00:15:00 157

hadoop单结点配置

hadoop单结点

hadoop 2.x 版本概要讲解，HA搭建指南

Drools-复杂事件处理

Eclipse Formatter 模板 Formatter.xml

打飞机代码

s2sh整合配置，非常适合初学者，明白配置流程

hadoop学习文档

native_32位

excel操作包

eclipse的hadoop插件

空空如也