
优化
GOD_WAR
喜欢钻研大数据、python、机器学习、人工智能...
展开
-
HBase优化
HBase优化1、高可用在HBase中Hmaster负责监控RegionServer的生命周期,均衡RegionServer的负载,如果Hmaster挂掉了,那么整个HBase集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。关闭HBase集群(如果没有开启则跳过此步)$ bin/stop-hbase.sh在conf目录...原创 2019-11-01 14:47:09 · 166 阅读 · 0 评论 -
Hive企业级调优
企业级调优1、Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,...原创 2019-11-01 14:35:58 · 158 阅读 · 0 评论 -
MapReducer优化
MapReduce计算模型的优化主要集中在两个方面:一是计算性能方面的优化;二是I/O操作方面的优化。这其中,又包含七个方面的内容。MapReducer优化1.自定义分区 extends Partitioner 可以使用map输出的key或者value 2.自定义分组 implements RawComparator 重点WritableComparator.compareBytes...原创 2018-11-29 19:59:47 · 182 阅读 · 0 评论 -
HBase 优化
表的优化1.Pre-Creating Regions预分区 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个分区写数据,知道这个region分区足够大的时候才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照分区情况,在集群内做数据的负载均衡。2....原创 2018-11-29 19:46:53 · 227 阅读 · 0 评论 -
hive优化大全-一篇就够了
1.概述 在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是...原创 2018-11-28 21:52:15 · 37437 阅读 · 5 评论