下面介绍MapReduce的配置
相关介绍:并行计算框架(2.X),思想:分而治之 核心: Map:并行处理数据,将数据分割,一部分一部分的处理 Reduce:将Map的处理结果进行合并。 | ||
配置 | cd {Hadoop_home}/etc/hadoop cp mapred-site.xml.template mapred-site.xml | 因为Hadoop里面没有mapred-site.xml文件,所以这里需要复制一个mapred-site.xml.template将名字改为 mapred-site.xml即可配置 |
配置 内容 | <!--指定MapReduce程序运行在YARN上,默认值local--> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> 网站: http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html (配置文件) | |
mapreduce程序运行在YARN上 通过经典程序案例,wordcount,Hadoop测试案例,就需要查看是否存在下面这个jar包 /opt/modules/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar -》准备数据,数据是放到hdfs上 -》提交运行 bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /datas/input.data /output1 执行这个命令需要传两个参数,一个需要要统计的文件/目录 一个是统计之后需要输出的目录/文件 |
修改mapred-site.xml
查看Hadoop的jar包
统计单词数
配置历史服务器
查看监听已经运行完成的MapReduce任务的执行情况
配置的文件 | 配置内容 |
配置 mapred-site.xml | <!--配置历史服务器--> <property> <name>mapreduce.jobhistory.address</name> <value>bigdata-hpsk01.huadian.com:10020</value> </property> |
启动 | sbin/mr-jobhistory-daemon.sh start historyserver |
注意 | 在启动historyServer服务之前运行的job相关信息已经没了,只有后面运行的才有。 |
日志集聚功能
当MapReduce程序在YARN上运行完成之后,将产生日志文件上传到HDFS目录中,以便后续查看。
需配置的文件 | 配置的内容 |
配置: yarn-site.xml | <!--日志集聚功能--> <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <!--日志存储的时间1周 60*60*24*7--> <property> <name>yarn.log-aggregation.retain-seconds</name> <value>604800</value> </property> |
重启YARN和jobHistoryServer | --快照,克隆 |
日志文件信息的查看
{Hadoop_home}/logs 组件名称-用户名-服务名称-主机名 hadoop-huadian-datanode-bigdata-hpsk01.huadian.com.log | |
命令(根据后缀名) | 解释 |
.log | 程序启动相关信息会在里面, 进程启动失败 |
.out | 程序运行相关的输出 system.out.print system.out.error |
查看 | tail -100f name |
查看日志
查看具体的日志
以上是具体的配置过程,下一张将会介绍在配置过程中出现的问题。