一、概况
集群环境如下表:
| 集群 | 机器 | 存储 | 内存 | CPU | 每日数据 | ||||
| HW大数据平台 | 160台 | 6PB | 10TB | 8000 | 10亿 |
数据存储在kafka中,130个分区,采用sparkstreaming将数据清洗后,通过phoneix批量写入hbase。
二、kafka原因排查
sparkstreaming拉取kafka的时候,卡死在这一步,如下图所示:

sparkstreaming读取kafka的数据采用Direc
本文分析了一起HBase写入变慢,进而影响SparkStreaming任务延迟的问题。通过排查Kafka和HBase,发现Kafka端已解决阻塞,而HBase存在写热点、线程堆栈卡顿及频繁创建连接的情况。借助ELK日志搜集,定位到写等待主要发生在特定regionserver,进一步排查发现网络丢包问题。停用问题regionserver后,性能恢复正常。
集群环境如下表:
| 集群 | 机器 | 存储 | 内存 | CPU | 每日数据 | ||||
| HW大数据平台 | 160台 | 6PB | 10TB | 8000 | 10亿 |
数据存储在kafka中,130个分区,采用sparkstreaming将数据清洗后,通过phoneix批量写入hbase。
sparkstreaming拉取kafka的时候,卡死在这一步,如下图所示:

sparkstreaming读取kafka的数据采用Direc