HMaster组件异常导致Flink写HBase任务频繁重启问题解决

项目中使用Flink处理微信事件日志,通过30s滚动窗口实时写入ClickHouse并备份到HBase。遇到的问题包括HBase的HMaster异常、HDFSDataNode磁盘使用过高以及SparkHistory日志清除策略失效。解决策略涉及手动清除日志、恢复DataNode资源、重启HMaster及处理空WALs文件。最后,通过调整Spark组件的重启和配置解决了SparkHistory日志保留问题。

项目场景:

项目主题是微信用户对微信公众号和小程序的操作行为的分析。具体实现是Flink处理Kafka收集到的微信事件日志,以30s的滚动窗口进行实时处理,并写入ClickHouse,由前端UI直接引用。为了数据安全和后续需求,也需要进行到HBase的全量备份工作。


问题描述

0级问题:Flink写HBase历史备份任务失败

1级问题:HBase服务的HMaster组件异常

2级问题:HDFS的DataNode资源使用率过高

3级问题:SparkHistory日志滚动清除策略失效

报错日志:

HMaster运行日志:

org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /hbase/MasterData/WALs/10.132.138.214,16000,1675157499749/10.132.138.214%2C16000%2C1675157499749.1675157503665 could only be written to 0 of the 1 minReplication nodes. There are 3 datanode(s) running and 3 node(s) are excluded in this operation.

原因分析:

SparkHistory的任务日志未按照目标计划清除,导致HDFS磁盘占用过多。

从而使HMaster自检失败且无法正常处理RegionServer发来的数据处理请求。


解决方案:

1. 手动清除/spark-history相关日志数据

2. DataNode的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值