HMaster组件异常导致Flink写HBase任务频繁重启问题解决

原创

已于 2023-02-10 15:45:15 修改 · 766 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#flink #hbase #hdfs #spark #大数据

于 2023-02-09 07:09:43 首次发布

项目中使用Flink处理微信事件日志，通过30s滚动窗口实时写入ClickHouse并备份到HBase。遇到的问题包括HBase的HMaster异常、HDFSDataNode磁盘使用过高以及SparkHistory日志清除策略失效。解决策略涉及手动清除日志、恢复DataNode资源、重启HMaster及处理空WALs文件。最后，通过调整Spark组件的重启和配置解决了SparkHistory日志保留问题。

项目场景：

项目主题是微信用户对微信公众号和小程序的操作行为的分析。具体实现是Flink处理Kafka收集到的微信事件日志，以30s的滚动窗口进行实时处理，并写入ClickHouse，由前端UI直接引用。为了数据安全和后续需求，也需要进行到HBase的全量备份工作。

问题描述

0级问题：Flink写HBase历史备份任务失败

1级问题：HBase服务的HMaster组件异常

2级问题：HDFS的DataNode资源使用率过高

3级问题：SparkHistory日志滚动清除策略失效

报错日志：

HMaster运行日志：

org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /hbase/MasterData/WALs/10.132.138.214,16000,1675157499749/10.132.138.214%2C16000%2C1675157499749.1675157503665 could only be written to 0 of the 1 minReplication nodes. There are 3 datanode(s) running and 3 node(s) are excluded in this operation.