MapReduce配置

Step 1:
搭建Hadoop集群和Zookeeper集群:
http://blog.youkuaiyun.com/ymf827311945/article/details/71566137
http://blog.youkuaiyun.com/ymf827311945/article/details/71258273

Step 2:
执行命令:

vi /opt/apps/hadoop/hadoop-2.6.0/etc/hadoop/yarn-site.xml

添加如下属性:

<configuration>
<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
</property>
<property>
  <name>yarn.resourcemanager.ha.enabled</name>
  <value>true</value>
</property>
<property>
  <name>yarn.resourcemanager.cluster-id</name>
  <value>ymf</value>
</property>
<property>
  <name>yarn.resourcemanager.ha.rm-ids</name>
  <value>rm1,rm2</value>
</property>
<property>
  <name>yarn.resourcemanager.hostname.rm1</name>
  <value>node12</value>
</property>
<property>
  <name>yarn.resourcemanager.hostname.rm2</name>
  <value>node13</value>
</property>
<property>
  <name>yarn.resourcemanager.zk-address</name>
  <value>node11:2181,node12:2181,node13:2181</value>
</property>
</configuration>

这里写图片描述

Step 3:
执行命令—-复制一份配置文件,名字必须为mapred-site.xml

cp /opt/apps/hadoop/hadoop-2.6.0/etc/hadoop/mapred-site.xml.template /opt/apps/hadoop/hadoop-2.6.0/etc/hadoop/mapred-site.xml

这里写图片描述

Step 4:
执行命令,编辑该文件

vi /opt/apps/hadoop/hadoop-2.6.0/etc/hadoop/mapred-site.xml

添加如下属性:

<configuration>
<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>
</configuration>

这里写图片描述

Step 5:
执行命令,进行文件的分发

scp /opt/apps/hadoop/hadoop-2.6.0/etc/hadoop/yarn-site.xml node12:/opt/apps/hadoop/hadoop-2.6.0/etc/hadoop/
scp /opt/apps/hadoop/hadoop-2.6.0/etc/hadoop/yarn-site.xml node13:/opt/apps/hadoop/hadoop-2.6.0/etc/hadoop/
scp /opt/apps/hadoop/hadoop-2.6.0/etc/hadoop/mapred-site.xml node13:/opt/apps/hadoop/hadoop-2.6.0/etc/hadoop/
scp /opt/apps/hadoop/hadoop-2.6.0/etc/hadoop/mapred-site.xml node12:/opt/apps/hadoop/hadoop-2.6.0/etc/hadoop/

这里写图片描述

Step 6:
分别在三个节点上执行命令,启动zookeeper集群

zkServer.sh start

这里写图片描述
这里写图片描述
这里写图片描述

Step 7:
在node11节点上执行命令,启动yarn

start-yarn.sh

这里写图片描述
这里写图片描述
这里写图片描述

Step 8:
由于node11和node12在yarn-site.xml设置成resourcemanager,所以,上图中可以看到,在node12的进程中并没有,因此需要在node12节点上手动启动resourcemanager

yarn-daemon.sh start resourcemanager

这里写图片描述

Step 8:
打开浏览器,分别输入以下两个网址
http://192.168.80.11:8088
http://192.168.80.12:8088

这里写图片描述

这里写图片描述

MapReduce是Google分布式计算模型的一种实现,它将复杂的计算任务分解为一系列简单的Map和Reduce操作在大量机器上并行执行。配置MapReduce主要涉及到以下几个方面: 1. **Hadoop配置文件**:Hadoop主要有两个核心配置文件,`core-site.xml`和`hdfs-site.xml`,分别管理通用配置和HDFS(Hadoop分布式文件系统)配置。例如,`mapred-site.xml`用于配置MapReduce任务。 - `mapred.job.tracker`: 主要任务跟踪器的地址。 - `mapred.mapper.class` 和 `mapred.reducer.class`: 明确指定Map和Reduce操作的实现类。 - `mapred.map.tasks` 和 `mapred.reduce.tasks`: 指定Map和Reduce作业的数量。 2. **Mapper和Reducer设置**:你需要定义Mapper和Reducer的工作流程,如输入格式、输出键值对格式、中间文件路径等。 3. **InputFormat和OutputFormat**:选择合适的InputFormat(如TextInputFormat或SequenceFileInputFormat)来读取数据源,OutputFormat(如TextOutputFormat或SequenceFileOutputFormat)决定结果的输出格式。 4. **Job的提交和监控**:使用`hadoop jar`命令提交Job,可以通过`jobconf`选项传递配置参数,如`-D mapred.job.queue.name=your_queue`设置队列。 5. **资源管理和调度**:调整`yarn-site.xml`中的资源配置,比如内存分配、CPU核心数等。 6. **错误处理和日志**:确保适当的日志路径和级别设置,以便于追踪任务的执行过程和错误。 相关问题: 1. Hadoop配置文件有哪些? 2. MapReduce作业中如何指定Mapper和Reducer的类? 3. 如何选择合适的InputFormat和OutputFormat? 4. 什么是YARN模式下的资源管理和调度? 5. 如何查看和分析MapReduce任务的执行日志?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值