一、概况
集群环境如下表:
集群 | 机器 | 存储 | 内存 | CPU | 每日数据 | ||||
HW大数据平台 | 160台 | 6PB | 10TB | 8000 | 10亿 |
数据存储在kafka中,130个分区,采用sparkstreaming将数据清洗后,通过phoneix批量写入hbase。
二、kafka原因排查
sparkstreaming拉取kafka的时候,卡死在这一步,如下图所示:
sparkstreaming读取kafka的数据采用Direc
集群环境如下表:
集群 | 机器 | 存储 | 内存 | CPU | 每日数据 | ||||
HW大数据平台 | 160台 | 6PB | 10TB | 8000 | 10亿 |
数据存储在kafka中,130个分区,采用sparkstreaming将数据清洗后,通过phoneix批量写入hbase。
sparkstreaming拉取kafka的时候,卡死在这一步,如下图所示:
sparkstreaming读取kafka的数据采用Direc