spring208208-优快云博客

原创 hbase表无法删除，命令行卡住问题处理

hbase表无法删除，命令行卡住1.active master日志出现超时2.hbase shell中list_procedures提示任务一直在运行，且任务时间也在实时更新命令: >list_procedures3.使用abort_procedure idxxx(procedure的id)，终止任务;然后drop tablename；返回fail命令：返回fail4.hbase hbck tablename 存在有2个不一致地方。

2025-03-20 11:56:02 110

原创 flink作业访问zk出现acl报错问题分析

现场代码pom依赖引入了开源的flink-client包，而包装过的产品flink-client-xxx依赖里面设置了访问节点的用户(acl flinkacl用户)，7.查看产品flink源代码发现zk的flinkacl用户被写死进代码里面了，导致了开源的flink-clients包无法访问带有权限的。1.首先确认是否是权限的问题，即程序中zk用户没有权限操作zk上的flink节点目录。确认集群上zookeeper的flink的acl权限，命令：getAcl /flink。

2025-03-18 16:23:36 125

原创 hbase集群archive目录过大问题处理

现场反馈hbase集群/hbase/archive目录过大，大小约为1.52PB。

2025-03-08 10:27:31 224

原创 hbase相关问题处理

通过new HTable方式，则每次方法调用都会建立新的连接，而且会从zk获取表的元数据，会导致将业务的并发传导到zookeeper服务，会对全局所有依赖zookeeper服务的节点存在一定的影响。可通过HTablePool等方式进行处理。对于Connection，一般就是初始化一次，就可在每个线程中调用conn.getTable方式获取表对象。即使连接的zookeeper节点异常，也会自动进行切换。

2025-03-01 17:00:51 666

原创 regionserver实例僵住问题分析

应用提交超时，发现regionserver实例异常。hbase原生页面这个实例dead，业务连接到这个rs的进程超时8个regionserver实例。D08在18：30分后显示warning，应用提交任务到这个rs节点超时，hbase控制台不显示d08的rs信息了。19：30在页面停止rs实例失败，然后kill进程。18：30统计图等就不刷新了，但是机器里rs进程在。d08节点还有dn，nn，worker实例。查看d08，发现没有最近时间的gc日志。rs日志，18：30-19：30没有日志。

2025-02-27 12:36:38 784

原创 hbase线上region不一致问题相关数据修复

再次hbck检查，发现region被assign到了两个regionserver上，到hbase控制台的s02和s01两个regionserver上检查该region，在s01上存在该region而在s02上没有。在hbase控制台检查该表是否有这些报出的region，反馈控制台找不到这些region，且对应表的所有region的rowkey都是连续的。执行hbck检查集群恢复正常。如果此表在hbase中已经不存在了，只在hdfs上有对应目录且没有数据，已经是垃圾文件，可以删除或mv到hdfs的其他目录。

2025-02-24 10:24:23 854

原创 hbase一次pod模式client写入慢分析

写数据到hbase使用的是批量put操作，客户端代码中没有显示设置HTable的setAutoFlush（默认为true），即每执行一次put都会将这次写入的数据发送到服务端才能发送下一批数据。沟通后了解到，应用侧从kafka中消费数据，消费数据时只是对数据值进行非空判断，没有复杂的逻辑，rowkey前缀使用md5处理的，3.查看hbase原生控制台上每台rs的请求，发现每秒的请求数不均衡，但在manager上hbase服务的热点监控界面没有和此次put操作的表（tablexxx）相关信息。

2025-02-17 11:57:59 254

原创 hbase bulkload写入数据失败故障处理

老集群向新集群导入数据时，一张表处于enabling状态，导致新增数据无法正常写入，bulkload时异常table is not currently avaiable，数据导入就停止了HBCK对表进行检查时，hdfs上表region目录下缺少.regioninfo 文件：Failed to read .regioninfo file for region nulljava.io.FileNotFoundException:File does not exist: /hbase/data/defult

2025-02-13 18:16:13 498

原创 hbase合并队列超长问题分析

hbase集群合并队列超长，有节点上合并任务已经运行超过24小时，且合并队列还在不断增加

2025-02-13 11:17:32 254

原创 hbase快照同步到目标集群出现ERROR Multiple regions have the same startkey问题分析

源集群表split过程中创建快照，该快照同步到目标集群，目标集群恢复快照后，进行hbck检查，就会出现异常报错：ERROR Multiple regions have the same startkey;首先，出现上述问题可能有如下两种原因：1.源集群中snapshot表本身就存在这种问题，没有修复就执行snapshot，导出快照到目标集群，然后恢复表也会存在这种问题。2.在执行split/merge的同时执行了snapshot，若此时子region上线但父region还没下线，这样

2025-02-11 18:20:07 1218

原创 hive spark读取hive hbase外表报错分析和解决

使用Spark shell 操作hive关联Hbase的外表导致报错；hive使用tez引擎操作关联Hbase的外表时报错。问题1：使用tez或spark引擎，在hive查询时只要关联hbase的hive表就会有问题其他表正常。

2025-02-11 11:18:05 410

原创线上HBase client返回超时异常分析 HBase callTimeout=60000

HBase client直接返回超时异常 HBase callTimeout=60000, callDuration=60301: row ‘12649160863966c2790195059018040900010003320’seqNum=55677989”并没有触发内部重试机制，只有在客户端重试之后，才可返回正常结果。

2025-02-10 17:44:06 193

原创线上hbase rs 读写请求个数指标重置问题分析

通过调用hbase的jmx接口获取hbase的读写请求个数，分析HBase读写请求每日增量。但是发现生产环境多个集群，Hbase服务指标regionserver读写请求个数存在突然下降到0或者大幅度下降情况。需要排查原因：1.某个Region的读写请求数：会发现经常会重置为02.整个集群的读写请求数：可以看到经常有断崖式的读写请求下滑。

2025-02-09 11:35:03 150

原创 unable to create new native thread异常分析

HBase的RegionServer服务以及对应的节点均出现了OOM现象。

2025-02-08 17:35:46 411

原创 es集群一个节点多次重启问题分析

此时集群请求重新响应至该节点，待业务量逐渐上升至超过该es服务的承受能力，es服务又开始之前切换状态的操作，循环往复，直至集群的业务量下降，服务状态变为started并不再发生变化。1.节点的ram.percent内存使用率为99%和100%，合理的服务器内存使用率是60%~80%，超出正常使用范围。问题节点多次离线，因为主节点每30秒会去检查其他节点的状态，如果任何节点的垃圾回收时间超过30秒，查看节点日志未发现节点进程挂掉报错的原因，现场做了保活的操作，未手动启动关闭服务。由于es服务做了保活操作，

2025-02-06 15:30:35 437

原创一次线程数超限导致的hive写入hbase作业失败分析

操作系统：SuSe操作系统集群节点：100台相同配置的服务器单台：核心112Core，内存396G。

2025-02-04 10:34:33 338

原创一次大数据集群Hive写入HBase失败案例分析

操作系统：SuSe操作系统集群节点：100台相同配置的服务器单台：核心112Core，内存396G。

2025-01-25 10:16:53 36

原创 elasticsearch 请求超时index red状态和index read_only_allow_delete问题分析

注意： watermark setting可以通过update-api动态修改，默认es每隔30s会收集各个节点磁盘的使用情况，可以cluster.info.update.interval来设置时间间隔。注：es根据磁盘使用情况来分配shard，默认设置是开启的，也可以通过api关闭：cluster.routing.allocation.disk.threshold_enabled: false。超时的原因比较复杂，可能的原因有：索引太多、分片太多、集群正在处理的任务较多。获取任务:_cat/tasks?

2025-01-22 11:37:09 64

原创线上Flink执行失败，Heartbeat Timeout异常分析

程序执行不稳当，时而正常，时而异常。对应的异常信息如下：执行过程中出现 java.util.concurrent.TimeoutException: Heartbeat of TaskManager with id < tm_id>timed outTaskManagerHeartbeatListenernotifyHeartbeatTimeoutJobMasterjava1149ator。

2025-01-21 12:02:00 207

原创 Spark内存解析

这意味着，即使用户没有明确设置该参数，Spark 也会预留执行器内存的 10%（或 384MB，以较高者为准）。和堆内内存使用相同，堆外内存由 spark.memory.offHeap.size 决定。这是一项可选功能，可以通过将 spark.memory.offHeap.use 设置为 true 来启用。overhead内存= max(executorMemory * spark.executor.memoryOverheadFactor, 384m)分为overhead内存和off-head内存。

2025-01-20 17:28:42 281

原创 hbase不同版本集群数据复制replication(hbase-1.2.0-2.4.5)分析

从 1.0.0 版本开始，HBase 正在致力于 Semantic Versioning 的发布版本。对于给定的版本号 MAJOR.MINOR.PATCH，增加如下内容：• MAJOR 版本，当你进行不兼容的 API 更改时• MINOR 版本，当您以向后兼容的方式添加功能时• PATCH 版本，当您进行向后兼容的错误修复时• 预发布和构建元数据的其他标签可作为MAJOR.MINOR.PATCH格式的扩展。

2025-01-17 15:57:13 545

原创 k8s日志收集方案fluent-operator和logging-operator对比

说明：• 两者皆可自动部署 Fluent Bit 与 Fluentd。logging-operator 需要同时部署 Fluent Bit 和 Fluentd，而 Fluent Operator 支持可插拔部署 Fluent Bit 与 Fluentd，非强耦合，用户可以根据自己的需要自行选择部署 Fluentd 或者是 Fluent Bit，更为灵活。

2025-01-15 18:48:20 586

原创线上spark作业失败，metastore连接超时问题排查

结合查看生产环境metastore到mysql连接只有不到100(netstat -an|grep 3309|wc -l )个连接看，应该不是这个设置引发问题。查看mysql连接数设置，发现max_connections = 10000。3.mysql数据库负载高，由于mysql监控暂时没拿到，这块信息缺失。解决方案(hive-site.xml)：增大最大连接数设置。获取连接的最大等待时间（毫秒）检测连接泄漏的阈值（毫秒）空闲连接超时时间（毫秒）将最大连接数设置为20。设置最大连接数为20。

2025-01-14 09:49:04 241

原创现代大数据平台架构（存算分离）-数据上云

他能捕获数据整个生命周期内所有相关元数据以及与数据关联的事件，例如数据集的源、用于创建该数据集的其他数据集、其创建者和创建时间、执行的转换、使用它的其他数据集和相关事件。无论是单个物理机的文件存储还是基于hdfs的块存储，企业都需要按照一定的存储和计算资源的配比关系来采购服务器，这样容易使计算或者存储资源得不到充分的利用。• 面向对象存储的优化。基于云存储的方案则可以使计算和存储彻底的进行分离，企业可以根据需要对计算资源和存储资源单独进行扩容，企业的存储资源集中到一起作为一个大的资源池来进行管理和使用。

2025-01-13 17:49:14 673

原创 Flink-k8s弹性扩缩容原理和部署步骤

简单地说flink-kubernetes-operator 是在 Kubernetes 集群上运行 Flink 应用的工具。flink-kubernetes-operator 可以将 Flink 作业定义为 Kubernetes 资源，这样可以更容易地将 Flink 作业作为 Kubernetes 基础架构的一部分管理。总的来说，Flink Kubernetes 操作员简化了 Flink 应用的部署和管理，使得在 Kubernetes 集群上运行 Flink 作业更加容易。2.对扩缩容特性进行回归测试。

2025-01-12 10:44:39 1276

原创大数据平台安装部署步骤

编译管理一、编译工艺管理：1.1 编译环境工具版本cpu x86操作系统 CentOS 7python 2.6（系统自带）1.1.1软硬件环境1.1.2环境变量所在位置变量名变量值… … …1.2编译流程二、平台部署部署架构部署包2.1主程序与大数据服务资源包manager.tar.gz解压后各目录作用：•agent：分布式客户端程序•bin：程序启停脚本•config：程序配置文件。

2025-01-12 10:42:24 547

转载 linux init进程学习

一、什么是init进程在介绍init进程前我们先了解下什么是进程1.进程的概念所谓进程就是系统中正在运行的程序，进程是操作系统的概念，每当我们执行一个程序时，对于操作系统来讲就是创建了一个进程，在这个过程中操作系统对进程资源的分配和释放，可以认为进程就是一个程序的一次执行过程。2.Linux下的三个特殊进程Linux下有三个特殊的进程idle进程(PID=0)，init进程(PID=1)，和kthreadd(PID=2)idle进程由系统自动创建，运行在内核态。

2025-01-11 10:52:58 28

原创 spark historyserver卡住

从historyserver解析eventLog的流程可知，当spark.eventLog.dir目录下有新生成或大小有增加的日志文件时，historyserver就会对。park historyserver启动后，会启动一个定时任务线程，用来解析spark.eventLog.dir配置目录下spark应用生成的eventLog日志文件。解析日志的线程启动后，会扫描spark.eventLog.dir目录下的所有文件，检查此目录下是否有新生成的文件和大小有增加的文件，过滤筛。所以建议再持续观察一段时间，

2025-01-10 16:29:11 182

原创 spark-监控作业算子执行时间获取

Spark UI：Spark 提供了 Web UI，可以通过浏览器访问，查看作业的执行情况、各个阶段的执行时间以及每个任务的执行情况。在 Spark 应用程序运行期间，可以通过 Spark UI 来监控每个算子的执行时间和各个阶段的执行情况。日志信息：Spark 在运行过程中会输出大量的日志信息，包括每个阶段的执行情况、任务的执行时间等。自定义监控：在 Spark 应用程序中可以加入自定义的监控代码，对每个算子的执行时间进行统计，并输出到日志或其他监控系统中，从而实现精细化的监控和统计。

2025-01-10 16:24:04 700

原创 vmware下安装k8s实战

初始操作（所有host都需要执行）1.#修改网卡地址 https://blog.youkuaiyun.com/weixin_53287520/article/details/137880235PREFIX=242.# 在master添加hostsEOF3.# 关闭防火墙4.# 关闭selinux5.# 关闭swapswapoff -aswap.

2025-01-09 16:21:17 751

原创一次spark streaming 性能抖动问题解决和分析

spark streaming 延迟问题分析透明巨页 gc

2025-01-09 12:04:42 1038

原创 elasticsearch7.10.2 安装实战

elasticsearch 安装安全配置

2025-01-08 15:08:22 916

原创一次mapReduce任务读取lzo压缩文件异常问题

mapReduce读取lzo文件运行异常索引文件损坏

2025-01-08 11:03:17 472

原创 key过长导致mapreduce执行慢

mapreduce 程序的key过长导致执行慢分析

2025-01-07 10:49:11 345

spark作业 metastore 连接超时

2025-01-14

大数据数据上云 hadoop3 s3协议 minio

当前先进的大数据平台方案

2025-01-14

大数据领域核心技术解析-spark flink hadoop kafka Hive、Flume、DataX、Redis等组件优化与实践应用

内容概要：本文档《大数据学习笔记》涵盖了Hive、Flume、DataX、Redis、Java锁、Spark、Flink、Hadoop以及Kafka等方面的知识点与实战技巧，尤其侧重于如何解决实际遇到的问题如Hive的小文件处理方法、Redis缓存策略的应用、Spark的RDD优化与序列化配置等，同时也涉及到了各个组件的新特性和改进方案，并探讨了一些关键组件的工作原理，为相关技术人员提供了宝贵的经验参考和技术指导。适合人群：适用于有一定基础的大数据开发与运维工程师，特别是一线开发者和架构师群体。使用场景及目标：帮助使用者掌握常见开源组件的核心概念与特性，理解并应用各种工具来提升系统的稳定性、扩展性和性能。比如，在面对海量数据处理时，能够快速确定最合适的ETL解决方案，或是有效应对系统中存在的数据倾斜、小文件过多等问题，通过合理的调优策略确保平台稳定高效地运行大型任务流程。阅读建议：该笔记内容详尽且具有较强的实用价值，因此推荐按模块逐个深入学习，重点理解各技术环节的关键优化技巧及其应用场景；对于具体工具的操作细节可进一步查阅官方文档或其他专业资料辅助理解。与此同时，结合自己的项目经验，边做实验验证效果更好。

2025-01-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

spark作业 metastore 连接超时

大数据 数据上云 hadoop3 s3协议 minio

大数据领域核心技术解析-spark flink hadoop kafka Hive、Flume、DataX、Redis等组件优化与实践应用

空空如也

大数据数据上云 hadoop3 s3协议 minio