
hbase
hbase的使用与配置
活在大染缸中
一步一步来
展开
-
hbase的RegionServer内存占满导致频繁重启
hbase的RegionServer内存配置为16G,每次在运行统计任务的时候总会导致RegionServer自动重启。查看web界面发现,运行过程中RegionServer的内存使用率已经达到95%以上,从而导致regionServer长时间垃圾回收且回收不掉。通过spark的history查看任务失败阶段从而定位问题代码。 在代码中有个foreachPartition操作用来查找hbase表中该记录是否已存在。读取该分区下所有的主键,然后一次性查询hbase,导致RegionS...原创 2020-07-20 17:01:19 · 1604 阅读 · 0 评论 -
hbase中region拆分而父region未删除,导致spark读取hbase时重复读取数据,统计结果变多
使用spark的newAPIHadoopRDD方法读取hbase数据的时候,在hbase有父region未删除的情况下会导致数据重复读取。查看spark的executor日志可以发现未删除的父region会定位到其中的某一个女儿region中。从而导致数据重复读取。查看所有的input split就会发现有重复的...原创 2020-06-15 15:03:52 · 516 阅读 · 1 评论 -
hbase 2.1.5利用协处理器同步新增数据到ES填坑记录
1.hbase-site.xml配置文件必须添加<property> <name>hbase.coprocessor.abortonerror</name> <value>false</value> </property>,防止因协处理器启动失败,导致regionServer挂掉,从而导致hbase崩溃。2.一定要实现R...原创 2019-07-01 13:24:18 · 560 阅读 · 2 评论