Hadoop学习第三章分布式计算和分布式资源调度

_keep_doing

已于 2024-11-09 17:05:45 修改

阅读量1k

点赞数 24

文章标签：分布式 hadoop 学习

于 2024-11-09 17:02:15 首次发布

本文链接：https://blog.youkuaiyun.com/qq_74234591/article/details/143647689

版权

第三章分布式计算和分布式资源调度

分布式计算概述

什么是（数据）计算

大数据体系内的计算，举例：

•销售额统计、区域销售占比、季度销售占比

•利润率走势、客单价走势、成本走势

•品类分析、消费者分析、店铺分析

等等一系列，基于数据得出的结论。这些就是我们所说的计算。

分布式（数据）计算

分布式计算：顾名思义，即以分布式的形式完成数据的统计，得到需要的结果。

分散->汇总模式：

1. 将数据分片，多台服务器各自负责一部分数据处理

2. 然后将各自的结果，进行汇总处理

3. 最终得到想要的计算结果

生活中的“人口普查”

就是典型的分散汇总的分布式统计模式

中心调度->步骤执行模式：

1. 由一个节点作为中心调度管理者

2. 将任务划分为几个具体步骤

3. 管理者安排每个机器执行任务

4. 最终得到结果数据

生活中的各类项目的：项目经理和项目成员

就是这种模式，一个管理分配任务，其余人员领取任务工作

总结

1. 什么是计算、分布式计算？

•计算：对数据进行处理，使用统计分析等手段得到需要的结果

•分布式计算：多台服务器协同工作，共同完成一个计算任务

2. 分布式计算常见的2种工作模式

•分散->汇总（MapReduce就是这种模式）

•中心调度->步骤执行（大数据体系的Spark、Flink等是这种模式）

MapReduce概述

MapReduce是“分散->汇总”模式的分布式计算框架，可供开发人员开发相关程序进行分布式数据计算。

MapReduce提供了2个编程接口：

•Map

•Reduce

其中

•Map功能接口提供了“分散”的功能，由服务器分布式对数据进行处理

•Reduce功能接口提供了“汇总（聚合）”的功能，将分布式的处理结果汇总统计

用户如需使用MapReduce框架完成自定义需求的程序开发

只需要使用Java、Python等编程语言，实现Map Reduce功能接口即可。

MapReduce执行原理

总结

1. 什么是MapReduce

•MapReduce是Hadoop中的分布式计算组件

•MapReduce可以以分散->汇总（聚合）模式执行分布式计算任务

2. MapReduce的主要编程接口

•map接口，主要提供“分散”功能，由服务器分布式处理数据

•reduce接口，主要提供“汇总”功能，进行数据汇总统计得到结果

•MapReduce可供Java、Python等语言开发计算程序

•注：MapReduce尽管可以通过Java、Python等语言进行程序开发，但当下年代基本没人会写它的代码了，因为太过时了。 尽管MapReduce很老了，但现在仍旧活跃在一线，主要是Apache Hive框架非常火，而Hive底层就是使用的MapReduce。 所以对于MapReduce的代码开发，课程会简单扩展一下，但不会深入讲解，对MapReduce的底层原理会放在Hive之后，基于Hive做深入分析。

YARN概述

MapReduce和YARN的关系

MapReduce是基于YARN运行的，即没有YARN”无法”运行MapReduce程序

所以，MapReduce和YARN会在同一章节同时学习

资源调度

例子

程序资源调度

总结

1. YARN是做什么的？

•YARN是Hadoop的一个组件

•用以做集群的资源（内存、CPU等）调度

2. 为什么需要资源调度

•将资源统一管控进行分配可以提高资源利用率

3. 程序如何在YARN内运行

•程序向YARN申请所需资源

•YARN为程序分配所需资源供程序使用

4. MapReduce和YARN的关系

•YARN用来调度资源给MapReduce分配和管理运行资源

所以，MapReduce需要YARN才能执行（普遍情况）

YARN核心架构

•ResourceManager：整个集群的资源调度者，负责协调调度各个程序所需的资源。

•NodeManager：单个服务器的资源调度者，负责调度单个服务器上的资源提供给应用程序使用。

总结

1. YARN的架构有哪2个角色？

•主（Master）：ResourceManager

•从（Slave）：NodeManager

2. 两个角色各自的功能是什么？

•ResourceManager： 管理、统筹并分配整个集群的资源

•NodeManager：管理、分配单个服务器的资源，即创建管理容器，由容器提供资源供程序使用

3. 什么是YARN的容器？

•容器（Container）是YARN的NodeManager在所属服务器上分配资源的手段

•创建一个资源容器，即由NodeManager占用这部分资源

•然后应用程序运行在NodeManager创建的这个容器内

•应用程序无法突破容器的资源限制

ps：容器是虚拟化的相关机制，后续我们会详细讲解

YARN辅助架构

YARN的架构中除了核心角色，即：

•ResourceManager：集群资源总管家

•NodeManager：单机资源管家

还可以搭配2个辅助角色使得YARN集群运行更加稳定

•代理服务器(ProxyServer)：Web Application Proxy Web应用程序代理

•历史服务器(JobHistoryServer)：应用程序历史信息记录服务

Web应用代理(Web Application Proxy)

代理服务器，即Web应用代理是 YARN 的一部分。默认情况下，它将作为资源管理器(RM)的一部分运行，但是可以配置为在独立模式下运行。使用代理的原因是为了减少通过 YARN 进行基于网络的攻击的可能性。

这是因为， YARN在运行时会提供一个WEB UI站点（同HDFS的WEB UI站点一样）可供用户在浏览器内查看YARN的运行信息

代理服务器默认集成在了ResourceManager中

也可以将其分离出来单独启动，如果要分离代理服务器

JobHistoryServer历史服务器

JobHistoryServer历史服务器功能：

•提供WEB UI站点，供用户在浏览器上查看程序日志

•可以保留历史数据，随时查看历史运行程序信息

YARN集群部署

•Hadoop HDFS分布式文件系统，我们会启动：

•NameNode进程作为管理节点

•DataNode进程作为工作节点

•SecondaryNamenode作为辅助

•同理，Hadoop YARN分布式资源调度，会启动：

•ResourceManager进程作为管理节点

•NodeManager进程作为工作节点

•ProxyServer、JobHistoryServer这两个辅助节点

•那么，MapReduce呢？

MapReduce运行在YARN容器内，无需启动独立进程

所以关于MapReduce和YARN的部署，其实就是2件事情：

•关于MapReduce：修改相关配置文件，但是没有进程可以启动

•关于YARN：修改相关配置文件，并启动ResourceManager、NodeManager进程以及辅助进程（代理服务器、历史服务器）

部署说明

集群规划

有3台服务器，其中node1配置较高

集群规划如下：

MapReduce配置文件

在 $HADOOP_HOME/etc/hadoop 文件夹内，修改

•mapred-env.sh文件，添加如下环境变量

#设置JDK路径
export JAVA_HOME=/export/server/jdk
#设置JobHistoryServer进程内存为1G
export HADOOP_JOB_HISTORYSERVER_HEAPSIZE=1000
#设置日志级别为INFO
export HADOOP_MAPRED_ROOT_LOGGER=INFP,RFA

•mapred-site.xml文件，添加如下配置信息

 <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
    <description></description>
 </property>

 <property>
    <name>mapreduce.jobhistory.address</name>
    <value>node1:10020</value>
    <description></description>
 </property>
 <property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>node1:19888</value>
    <description></description>
 </property>


 <property>
    <name>mapreduce.jobhistory.intermediate-done-dir</name>
    <value>/data/mr-history/tmp</value>
    <description></description>
 </property>


 <property>
    <name>mapreduce.jobhistory.done-dir</name>
    <value>/data/mr-history/done</value>
    <description></description>
 </property>

 <property>
   <name>yarn.app.mapreduce.am.env</name>
   <value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
 </property>

 <property>
   <name>mapreduce.map.env</name>
   <value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
 </property>

 <property>
   <name>mapreduce.reduce.env</name>
   <value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
 </property>

YARN配置文件

•yarn-env.sh文件，添加如下4行环境变量内容：

#配置JDK路径的环境变量
export JAVA_HOME=/export/server/jdk
#设置HADOOP_HOME的环境变量
export HADOOP_HOME=/export/server/hadoop
#设置配置文件路径的环境变量
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
#设置日志文件的环境变量
export HADOOP_LOG_DIR=$HADOOP_HOME/logs

•yarn-site.xml文件，配置如图属性

<property>
    <name>yarn.log.server.url</name>
    <value>http://node1:19888/jobhistory/logs</value>
    <description></description>
</property>

  <property>
    <name>yarn.web-proxy.address</name>
    <value>node1:8089</value>
    <description>proxy server hostname and port</description>
  </property>


  <property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
    <description>Configuration to enable or disable log aggregation</description>
  </property>

  <property>
    <name>yarn.nodemanager.remote-app-log-dir</name>
    <value>/tmp/logs</value>
    <description>Configuration to enable or disable log aggregation</description>
  </property>


<!-- Site specific YARN configuration properties -->
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>node1</value>
    <description></description>
  </property>

  <property>
    <name>yarn.resourcemanager.scheduler.class</name>
    <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>
    <description></description>
  </property>

  <property>
    <name>yarn.nodemanager.local-dirs</name>
    <value>/data/nm-local</value>
    <description>Comma-separated list of paths on the local filesystem where intermediate data is written.</description>
  </property>


  <property>
    <name>yarn.nodemanager.log-dirs</name>
    <value>/data/nm-log</value>
    <description>Comma-separated list of paths on the local filesystem where logs are written.</description>
  </property>


  <property>
    <name>yarn.nodemanager.log.retain-seconds</name>
    <value>10800</value>
    <description>Default time (in seconds) to retain log files on the NodeManager Only applicable if log-aggregation is disabled.</description>
  </property>



  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
    <description>Shuffle service that needs to be set for Map Reduce applications.</description>
  </property>

核心配置

额外配置

分发配置文件

MapReduce和YARN的配置文件修改好后，需要分发到其它的服务器节点中。

scp mapred-env.sh mapred-site.xml yarn-env.sh yarn-site.xml doop2:`pwd`/
scp mapred-env.sh mapred-site.xml yarn-env.sh yarn-site.xml doop3:`pwd`/

集群启动

常用的进程启动命令如下：

•一键启动YARN集群： $HADOOP_HOME/sbin/start-yarn.sh

•会基于yarn-site.xml中配置的yarn.resourcemanager.hostname来决定在哪台机器上启动resourcemanager

•会基于workers文件配置的主机启动NodeManager

•一键停止YARN集群： $HADOOP_HOME/sbin/stop-yarn.sh

•在当前机器，单独启动或停止进程

•$HADOOP_HOME/bin/yarn --daemon start|stop resourcemanager|nodemanager|proxyserver

•start和stop决定启动和停止

•可控制resourcemanager、nodemanager、proxyserver三种进程

•历史服务器启动和停止

$HADOOP_HOME/bin/mapred --daemon start|stop historyserver

查看YARN的WEB UI页面(查看是否配置成功)

•打开 http://node1:8088 即可看到YARN集群的监控页面（ResourceManager的WEB UI）

拍摄快照

关闭集群

切换到root

通过init 0命令关闭虚拟机

打上快照

YARN集群的启停命令

启动：

$HADOOP_HOME/sbin/start-yarn.sh

•从yarn-site.xml中读取配置，确定ResourceManager所在机器，并启动它

•读取workers文件，确定机器，启动全部的NodeManager

•在当前机器启动ProxyServer（代理服务器）

关闭

$HADOOP_HOME/sbin/stop-yarn.sh

除了一键启停外，也可以单独控制进程的启停。

•$HADOOP_HOME/bin/yarn，此程序也可以用以单独控制所在机器的进程的启停

用法：yarn --daemon (start|stop) (resourcemanager|nodemanager|proxyserver)

控制历史服务器

•$HADOOP_HOME/bin/mapred，此程序也可以用以单独控制所在机器的历史服务器的启停

用法：mapred --daemon (start|stop) historyserver

提交自带MapReduce示例程序到YARN运行

在部署并成功启动YARN集群后，我们就可以在YARN上运行各类应用程序了。

YARN作为资源调度管控框架，其本身提供资源供许多程序运行，常见的有：

•MapReduce程序

•Spark程序

•Flink程序

Hadoop官方内置了一些预置的MapReduce程序代码，我们无需编程，只需要通过命令即可使用。

常用的有2个MapReduce内置程序：

•wordcount：单词计数程序。

统计指定文件内各个单词出现的次数

•pi：求圆周率

通过蒙特卡罗算法（统计模拟法）求圆周率

•这些内置的示例MapReduce程序代码，都在：

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar 这个文件内。

•可以通过 hadoop jar 命令来运行它，提交MapReduce程序到YARN中。

语法： hadoop jar 程序文件 java类名 [程序参数] ... [程序参数]

提交wordcount示例程序

1.准备一份数据文件并上传到hdfs

vim word.txt

hadoop fs -mkdir -p /input/wordcount

hadoop fs -mkdir /output

hadoop fs -put words.txt /input/wordcount/

2.提交示例MapReduce程序WordCount到YARN中执行

hadoop jar \$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.4.0.jar wordcount hdfs://doop1:8020/input/wordcount/ hdfs://doop1:8020/output/wc

hadoop jar:命令头

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar:java程序包的位置

wordcount:表示运行jar包中的单词计数程序（Java Class）

hdfs://node1:8020/input/wordcount/:数据输入路径（hdfs://node1:8020/input/wordcount/)

hdfs://node1:8020/output/wc1:结果输出路径(hdfs://node1:8020/output/wc1),需要确保输出的文

件夹不存在

可以在这里看到当前执行的任务