Yarn是什么
yarn是一个分布式程序的运行调度平台
yarn中有两大核心角色:
1、Resource Manager
接受用户提交的分布式计算程序,并为其划分资源(调度者)
管理、监控各个Node Manager上的资源情况,以便于均衡负载
Resource Manager最好不要放在namenode上面,因为resource不需要读取数据,resource manager非常重要所以需要单独放在一个机器上面。
2、Node Manager
管理它所在机器的运算资源(cpu + 内存)
负责接受Resource Manager分配的任务,创建容器、回收资源
根据分配的任务对于资源的要求来划分出合适大小的容器提供给job运行。客户端会将需要执行的程序jar包发送到node mananger里面,接收到客户端的指令之后,可以根据指令调度jar包中的相关程序。
Node Manager最好和data node安装在一个机器上,如果当前的Node Manager所请求的内容是在本机的DataNode上面就会提升效率。
Yarn的安装
- 修改配置文件
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hdp20-01</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
- scp这个yarn-site.xml到其他节点
- 启动yarn集群:start-ya