
大数据组件线上问题分析
文章平均质量分 82
多年大数据平台生产环境运维经验,包含运维过程中线上遇到问题的根因分析及解决方案。
包含hdfs,flink,spark,hbase,hive,zookeeper等大数据常用组件
优惠券已抵扣
余额抵扣
还需支付
¥19.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
spring208208
从事大数据开发运维工作,多年pb级大数据平台运维调优经验;
专注hadoop flink spark hbase等大数据组件源码;
爱好nlp 算法 大模型
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HBase客户端metacache缓存过期报错
HBase集群,项目组对HBase的表做了merge,64个region合并为了32个,客户端请求出现报错region is not online on xxxregionserver:62000, 该报错一直持续直到客户端程序重启,重启后报错消失。原创 2025-04-10 11:56:07 · 189 阅读 · 0 评论 -
hbase表无法删除,命令行卡住问题处理
hbase表无法删除,命令行卡住1.active master日志出现超时2.hbase shell中list_procedures提示任务一直在运行,且任务时间也在实时更新命令: >list_procedures3.使用abort_procedure idxxx(procedure的id),终止任务;然后drop tablename;返回fail命令:返回fail4.hbase hbck tablename 存在有2个不一致地方。原创 2025-03-20 11:56:02 · 167 阅读 · 0 评论 -
flink作业访问zk出现acl报错问题分析
现场代码pom依赖引入了开源的flink-client包,而包装过的产品flink-client-xxx依赖里面设置了访问节点的用户(acl flinkacl用户),7.查看产品flink源代码发现zk的flinkacl用户被写死进代码里面了,导致了开源的flink-clients包无法访问带有权限的。1.首先确认是否是权限的问题,即程序中zk用户没有权限操作zk上的flink节点目录。确认集群上zookeeper的flink的acl权限,命令:getAcl /flink。原创 2025-03-18 16:23:36 · 166 阅读 · 0 评论 -
hbase集群archive目录过大问题处理
现场反馈hbase集群/hbase/archive目录过大,大小约为1.52PB。原创 2025-03-08 10:27:31 · 291 阅读 · 0 评论 -
hbase一次pod模式client写入慢分析
写数据到hbase使用的是批量put操作,客户端代码中没有显示设置HTable的setAutoFlush(默认为true),即每执行一次put都会将这次写入的数据发送到服务端才能发送下一批数据。沟通后了解到,应用侧从kafka中消费数据,消费数据时只是对数据值进行非空判断,没有复杂的逻辑,rowkey前缀使用md5处理的,3.查看hbase原生控制台上每台rs的请求,发现每秒的请求数不均衡,但在manager上hbase服务的热点监控界面没有和此次put操作的表(tablexxx)相关信息。原创 2025-02-17 11:57:59 · 275 阅读 · 0 评论 -
hbase bulkload写入数据失败故障处理
老集群向新集群导入数据时,一张表处于enabling状态,导致新增数据无法正常写入,bulkload时异常table is not currently avaiable,数据导入就停止了HBCK对表进行检查时,hdfs上表region目录下缺少.regioninfo 文件:Failed to read .regioninfo file for region nulljava.io.FileNotFoundException:File does not exist: /hbase/data/defult原创 2025-02-13 18:16:13 · 532 阅读 · 0 评论 -
hbase合并队列超长问题分析
hbase集群合并队列超长,有节点上合并任务已经运行超过24小时,且合并队列还在不断增加原创 2025-02-13 11:17:32 · 267 阅读 · 0 评论 -
线上HBase client返回超时异常分析 HBase callTimeout=60000
HBase client直接返回超时异常 HBase callTimeout=60000, callDuration=60301: row ‘12649160863966c2790195059018040900010003320’seqNum=55677989”并没有触发内部重试机制,只有在客户端重试之后,才可返回正常结果。原创 2025-02-10 17:44:06 · 238 阅读 · 0 评论 -
线上hbase rs 读写请求个数指标重置问题分析
通过调用hbase的jmx接口获取hbase的读写请求个数,分析HBase读写请求每日增量。但是发现生产环境多个集群,Hbase服务指标regionserver读写请求个数存在突然下降到0或者大幅度下降情况。需要排查原因:1.某个Region的读写请求数:会发现经常会重置为02.整个集群的读写请求数:可以看到经常有断崖式的读写请求下滑。原创 2025-02-09 11:35:03 · 160 阅读 · 0 评论 -
一次线程数超限导致的hive写入hbase作业失败分析
操作系统:SuSe操作系统集群节点:100台相同配置的服务器单台:核心112Core,内存396G。原创 2025-02-04 10:34:33 · 351 阅读 · 0 评论 -
一次大数据集群Hive写入HBase失败案例分析
操作系统:SuSe操作系统集群节点:100台相同配置的服务器单台:核心112Core,内存396G。原创 2025-01-25 10:16:53 · 48 阅读 · 0 评论 -
一次mapReduce任务读取lzo压缩文件异常问题
mapReduce读取lzo文件运行异常 索引文件损坏原创 2025-01-08 11:03:17 · 484 阅读 · 0 评论 -
一次spark streaming 性能抖动问题解决和分析
spark streaming 延迟问题 分析 透明巨页 gc原创 2025-01-09 12:04:42 · 1059 阅读 · 0 评论 -
elasticsearch 请求超时index red状态和index read_only_allow_delete问题分析
注意: watermark setting可以通过update-api动态修改,默认es每隔30s会收集各个节点磁盘的使用情况,可以cluster.info.update.interval来设置时间间隔。注:es根据磁盘使用情况来分配shard,默认设置是开启的,也可以通过api关闭:cluster.routing.allocation.disk.threshold_enabled: false。超时的原因比较复杂,可能的原因有:索引太多、分片太多、集群正在处理的任务较多。获取任务:_cat/tasks?原创 2025-01-22 11:37:09 · 110 阅读 · 0 评论 -
线上Flink执行失败,Heartbeat Timeout异常分析
程序执行不稳当,时而正常,时而异常。对应的异常信息如下:执行过程中出现 java.util.concurrent.TimeoutException: Heartbeat of TaskManager with id < tm_id>timed outTaskManagerHeartbeatListenernotifyHeartbeatTimeoutJobMasterjava1149ator。原创 2025-01-21 12:02:00 · 269 阅读 · 0 评论