项目场景:
项目主题是微信用户对微信公众号和小程序的操作行为的分析。具体实现是Flink处理Kafka收集到的微信事件日志,以30s的滚动窗口进行实时处理,并写入ClickHouse,由前端UI直接引用。为了数据安全和后续需求,也需要进行到HBase的全量备份工作。
问题描述
0级问题:Flink写HBase历史备份任务失败
1级问题:HBase服务的HMaster组件异常
2级问题:HDFS的DataNode资源使用率过高
3级问题:SparkHistory日志滚动清除策略失效
报错日志:
HMaster运行日志:
org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /hbase/MasterData/WALs/10.132.138.214,16000,1675157499749/10.132.138.214%2C16000%2C1675157499749.1675157503665 could only be written to 0 of the 1 minReplication nodes. There are 3 datanode(s) running and 3 node(s) are excluded in this operation.
原因分析:
SparkHistory的任务日志未按照目标计划清除,导致HDFS磁盘占用过多。
从而使HMaster自检失败且无法正常处理RegionServer发来的数据处理请求。
解决方案:
1. 手动清除/spark-history相关日志数据
2. DataNode的

项目中使用Flink处理微信事件日志,通过30s滚动窗口实时写入ClickHouse并备份到HBase。遇到的问题包括HBase的HMaster异常、HDFSDataNode磁盘使用过高以及SparkHistory日志清除策略失效。解决策略涉及手动清除日志、恢复DataNode资源、重启HMaster及处理空WALs文件。最后,通过调整Spark组件的重启和配置解决了SparkHistory日志保留问题。
最低0.47元/天 解锁文章

445

被折叠的 条评论
为什么被折叠?



