14 | 计算资源优化

12.1 计算资源配置

本教程的计算环境为Hive on MR。计算资源的调整主要包括Yarn和MR。

12.1.1 Yarn资源配置

1Yarn配置说明

需要调整的Yarn参数均与CPU、内存等资源有关,核心配置参数如下

(1)yarn.nodemanager.resource.memory-mb

该参数的含义是,一个NodeManager节点分配给Container使用的内存。该参数的配置,取决于NodeManager所在节点的总内存容量和该节点运行的其他服务的数量。

考虑上述因素,此处可将该参数设置为64G,如下:

<property>

    <name>yarn.nodemanager.resource.memory-mb</name>

    <value>65536</value>

</property>

(2)yarn.nodemanager.resource.cpu-vcores

该参数的含义是,一个NodeManager节点分配给Container使用的CPU核数。该参数的配置,同样取决于NodeManager所在节点的总CPU核数和该节点运行的其他服务。

考虑上述因素,此处可将该参数设置为16。

<property>

    <name>yarn.nodemanager.resource.cpu-vcores</name>

    <value>16</value>

</property>

(3)yarn.scheduler.maximum-allocation-mb

该参数的含义是,单个Container能够使用的最大内存。推荐配置如下:

<property>

    <name>yarn.scheduler.maximum-allocation-mb</name>

    <value>16384</value>

</property>

(4)yarn.scheduler.minimum-allocation-mb

该参数的含义是,单个Container能够使用的最小内存,推荐配置如下:

<property>

    <name>yarn.scheduler.minimum-allocation-mb</name>

    <value>512</value>

</property>

2Yarn配置实操

(1)修改$HADOOP_HOME/etc/hadoop/yarn-site.xml文件

(2)修改如下参数

<property>

    <name>yarn.nodemanager.resource.memory-mb</name>

    <value>65536</value>

</property>

<property>

    <name>yarn.nodemanager.resource.cpu-vcores</name>

    <value>16</value>

</property>

<property>

    <name>yarn.scheduler.maximum-allocation-mb</name>

    <value>16384</value>

</property>

<property>

    <name>yarn.scheduler.minimum-allocation-mb</name>

    <value>512</value>

</property>

(3)分发该配置文件

(4)重启Yarn。

12.1.2 MapReduce资源配置

MapReduce资源配置主要包括Map Task的内存和CPU核数,以及Reduce Task的内存和CPU核数。核心配置参数如下:

1mapreduce.map.memory.mb 

该参数的含义是,单个Map Task申请的container容器内存大小,其默认值为1024。该值不能超出yarn.scheduler.maximum-allocation-mb和yarn.scheduler.minimum-allocation-mb规定的范围。

该参数需要根据不同的计算任务单独进行配置,在hive中,可直接使用如下方式为每个SQL语句单独进行配置:

set  mapreduce.map.memory.mb=2048;

2mapreduce.map.cpu.vcores   

该参数的含义是,单个Map Task申请的container容器cpu核数,其默认值为1。该值一般无需调整。

3mapreduce.reduce.memory.mb     

该参数的含义是,单个Reduce Task申请的container容器内存大小,其默认值为1024。该值同样不能超出yarn.scheduler.maximum-allocation-mb和yarn.scheduler.minimum-allocation-mb规定的范围。

该参数需要根据不同的计算任务单独进行配置,在hive中,可直接使用如下方式为每个SQL语句单独进行配置:

set  mapreduce.reduce.memory.mb=2048;

4mapreduce.reduce.cpu.vcores

该参数的含义是,单个Reduce Task申请的container容器cpu核数,其默认值为1。该值一般无需调整。

12.3 Explain查看执行计划(重点)

12.3.1 Explain执行计划概述

Explain呈现的执行计划,由一系列Stage组成,这一系列Stage具有依赖关系,每个Stage对应一个MapReduce Job,或者一个文件系统操作等。

若某个Stage对应的一个MapReduce Job,其Map端和Reduce端的计算逻辑分别由Map Operator Tree和Reduce Operator Tree进行描述,Operator Tree由一系列的Operator组成,一个Operator代表在Map或Reduce阶段的一个单一的逻辑操作,例如TableScan Operator,Select Operator,Join Operator等。

下图是由一个执行计划绘制而成:

图形用户界面, 应用程序, Word

描述已自动生成

常见的Operator及其作用如下:

  • TableScan:表扫描操作,通常map端第一个操作肯定是表扫描操作
  • Select Operator:选取操作
  • Group By Operator:分组聚合操作
  • Reduce Output Operator:输出到 reduce 操作
  • Filter Operator:过滤操作
  • Join Operator:join 操作
  • File Output Operator:文件输出操作
  • Fetch Operator 客户端获取数据操作

12.3.2 基本语法

EXPLAIN [FORMATTED | EXTENDED | DEPENDENCY] query-sql

注:FORMATTED、EXTENDED、DEPENDENCY关键字为可选项,各自作用如下。

  • FORMATTED:将执行计划以JSON字符串的形式输出
  • EXTENDED:输出执行计划中的额外信息,通常是读写的文件名等信息
  • DEPENDENCY:输出执行计划读取的表及分区

12.3.3 案例实操

1查看下面这条语句的执行计划

hive (default)>

explain

select

    user_id,

    count(*)

from order_detail

group by user_id;

2)执行计划如下图

图形用户界面, 应用程序, Word

描述已自动生成

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

走过冬季

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值