
大数据
活在大染缸中
一步一步来
展开
-
hbase的RegionServer内存占满导致频繁重启
hbase的RegionServer内存配置为16G,每次在运行统计任务的时候总会导致RegionServer自动重启。查看web界面发现,运行过程中RegionServer的内存使用率已经达到95%以上,从而导致regionServer长时间垃圾回收且回收不掉。通过spark的history查看任务失败阶段从而定位问题代码。 在代码中有个foreachPartition操作用来查找hbase表中该记录是否已存在。读取该分区下所有的主键,然后一次性查询hbase,导致RegionS...原创 2020-07-20 17:01:19 · 1604 阅读 · 0 评论 -
hbase 2.1.5利用协处理器同步新增数据到ES填坑记录
1.hbase-site.xml配置文件必须添加<property> <name>hbase.coprocessor.abortonerror</name> <value>false</value> </property>,防止因协处理器启动失败,导致regionServer挂掉,从而导致hbase崩溃。2.一定要实现R...原创 2019-07-01 13:24:18 · 560 阅读 · 2 评论 -
在oozie的sharelib公共库中为同一组件(不仅限spark)配置不同版本的运行环境
最近在公司开发遇到一个问题,oozie中spark的默认环境使用的是es2.0的版本。因为其他程序都使用2.0版本,所以将2.0的jar包放在了spark的环境中,而我运行spark的任务需要用到es7.2版本,这就导致因jar包版本冲突而无法运行。经过百度网上有好多oozie整合spark2的文章博客,受此启发,我可以使用现有的spark默认环境重新搭配一套为es7的spark运行环境。...原创 2019-12-29 18:37:02 · 494 阅读 · 0 评论