大数据组件线上问题分析_spring208208的博客-优快云博客

大数据组件线上问题分析

文章平均质量分 82

多年大数据平台生产环境运维经验，包含运维过程中线上遇到问题的根因分析及解决方案。包含hdfs,flink,spark,hbase,hive,zookeeper等大数据常用组件

文章数：15 文章阅读量：4601 文章收藏量：20

作者: spring208208

从事大数据开发运维工作，多年pb级大数据平台运维调优经验；专注hadoop flink spark hbase等大数据组件源码；爱好nlp 算法大模型

展开

专栏收录文章

HBase客户端metacache缓存过期报错

HBase集群，项目组对HBase的表做了merge，64个region合并为了32个，客户端请求出现报错region is not online on xxxregionserver:62000, 该报错一直持续直到客户端程序重启，重启后报错消失。

原创 2025-04-10 11:56:07 · 189 阅读 · 0 评论
hbase表无法删除，命令行卡住问题处理

hbase表无法删除，命令行卡住1.active master日志出现超时2.hbase shell中list_procedures提示任务一直在运行，且任务时间也在实时更新命令: >list_procedures3.使用abort_procedure idxxx(procedure的id)，终止任务;然后drop tablename；返回fail命令：返回fail4.hbase hbck tablename 存在有2个不一致地方。

原创 2025-03-20 11:56:02 · 167 阅读 · 0 评论
flink作业访问zk出现acl报错问题分析

现场代码pom依赖引入了开源的flink-client包，而包装过的产品flink-client-xxx依赖里面设置了访问节点的用户(acl flinkacl用户)，7.查看产品flink源代码发现zk的flinkacl用户被写死进代码里面了，导致了开源的flink-clients包无法访问带有权限的。1.首先确认是否是权限的问题，即程序中zk用户没有权限操作zk上的flink节点目录。确认集群上zookeeper的flink的acl权限，命令：getAcl /flink。

原创 2025-03-18 16:23:36 · 166 阅读 · 0 评论
hbase集群archive目录过大问题处理

现场反馈hbase集群/hbase/archive目录过大，大小约为1.52PB。

原创 2025-03-08 10:27:31 · 291 阅读 · 0 评论
hbase一次pod模式client写入慢分析

写数据到hbase使用的是批量put操作，客户端代码中没有显示设置HTable的setAutoFlush（默认为true），即每执行一次put都会将这次写入的数据发送到服务端才能发送下一批数据。沟通后了解到，应用侧从kafka中消费数据，消费数据时只是对数据值进行非空判断，没有复杂的逻辑，rowkey前缀使用md5处理的，3.查看hbase原生控制台上每台rs的请求，发现每秒的请求数不均衡，但在manager上hbase服务的热点监控界面没有和此次put操作的表（tablexxx）相关信息。

原创 2025-02-17 11:57:59 · 275 阅读 · 0 评论
hbase bulkload写入数据失败故障处理

老集群向新集群导入数据时，一张表处于enabling状态，导致新增数据无法正常写入，bulkload时异常table is not currently avaiable，数据导入就停止了HBCK对表进行检查时，hdfs上表region目录下缺少.regioninfo 文件：Failed to read .regioninfo file for region nulljava.io.FileNotFoundException:File does not exist: /hbase/data/defult

原创 2025-02-13 18:16:13 · 532 阅读 · 0 评论
hbase合并队列超长问题分析

hbase集群合并队列超长，有节点上合并任务已经运行超过24小时，且合并队列还在不断增加

原创 2025-02-13 11:17:32 · 267 阅读 · 0 评论
线上HBase client返回超时异常分析 HBase callTimeout=60000

HBase client直接返回超时异常 HBase callTimeout=60000, callDuration=60301: row ‘12649160863966c2790195059018040900010003320’seqNum=55677989”并没有触发内部重试机制，只有在客户端重试之后，才可返回正常结果。

原创 2025-02-10 17:44:06 · 238 阅读 · 0 评论
线上hbase rs 读写请求个数指标重置问题分析

通过调用hbase的jmx接口获取hbase的读写请求个数，分析HBase读写请求每日增量。但是发现生产环境多个集群，Hbase服务指标regionserver读写请求个数存在突然下降到0或者大幅度下降情况。需要排查原因：1.某个Region的读写请求数：会发现经常会重置为02.整个集群的读写请求数：可以看到经常有断崖式的读写请求下滑。

原创 2025-02-09 11:35:03 · 160 阅读 · 0 评论
一次线程数超限导致的hive写入hbase作业失败分析

操作系统：SuSe操作系统集群节点：100台相同配置的服务器单台：核心112Core，内存396G。

原创 2025-02-04 10:34:33 · 351 阅读 · 0 评论
一次大数据集群Hive写入HBase失败案例分析

操作系统：SuSe操作系统集群节点：100台相同配置的服务器单台：核心112Core，内存396G。

原创 2025-01-25 10:16:53 · 48 阅读 · 0 评论
一次mapReduce任务读取lzo压缩文件异常问题

mapReduce读取lzo文件运行异常索引文件损坏

原创 2025-01-08 11:03:17 · 484 阅读 · 0 评论
一次spark streaming 性能抖动问题解决和分析

spark streaming 延迟问题分析透明巨页 gc

原创 2025-01-09 12:04:42 · 1059 阅读 · 0 评论
elasticsearch 请求超时index red状态和index read_only_allow_delete问题分析

注意： watermark setting可以通过update-api动态修改，默认es每隔30s会收集各个节点磁盘的使用情况，可以cluster.info.update.interval来设置时间间隔。注：es根据磁盘使用情况来分配shard，默认设置是开启的，也可以通过api关闭：cluster.routing.allocation.disk.threshold_enabled: false。超时的原因比较复杂，可能的原因有：索引太多、分片太多、集群正在处理的任务较多。获取任务:_cat/tasks?

原创 2025-01-22 11:37:09 · 110 阅读 · 0 评论
线上Flink执行失败，Heartbeat Timeout异常分析

程序执行不稳当，时而正常，时而异常。对应的异常信息如下：执行过程中出现 java.util.concurrent.TimeoutException: Heartbeat of TaskManager with id < tm_id>timed outTaskManagerHeartbeatListenernotifyHeartbeatTimeoutJobMasterjava1149ator。

原创 2025-01-21 12:02:00 · 269 阅读 · 0 评论

大数据组件线上问题分析

作者: spring208208

HBase客户端metacache缓存过期报错

hbase表无法删除，命令行卡住问题处理

flink作业访问zk出现acl报错问题分析

hbase集群archive目录过大问题处理

hbase一次pod模式client写入慢分析

hbase bulkload写入数据失败故障处理

hbase合并队列超长问题分析

线上HBase client返回超时异常分析 HBase callTimeout=60000

线上hbase rs 读写请求个数指标重置问题分析

一次线程数超限导致的hive写入hbase作业失败分析

一次大数据集群Hive写入HBase失败案例分析

一次mapReduce任务读取lzo压缩文件异常问题

一次spark streaming 性能抖动问题解决和分析

elasticsearch 请求超时index red状态和index read_only_allow_delete问题分析

线上Flink执行失败，Heartbeat Timeout异常分析