大数据（2d）历史服务器,日志聚集

最新推荐文章于 2023-04-13 12:34:05 发布

原创最新推荐文章于 2023-04-13 12:34:05 发布 · 422 阅读

0 ·

CC 4.0 BY-SA版权

Hadoop 专栏收录该内容

24 篇文章

订阅专栏

本文介绍Hadoop中历史服务器配置方法及日志聚集功能启用步骤，并通过两个MapReduce任务实例演示如何查看聚合后的日志信息。

本文续：https://yellow520.blog.youkuaiyun.com/article/details/110425351

服务名	Hadoop100	Hadoop101	Hadoop102
DataNode	1	1	1
NameNode	1
SecondaryNameNode		1
ResourceManager			1
NodeManager	1	1	1
JobHistoryServer			1

1、历史服务器（JOB历史）

目的：查看提交的JOB 的历史运行情况

1、配置（在hadoop102上配，注意地址不要乱）

vi $HADOOP_HOME/etc/hadoop/mapred-site.xml

<!-- 历史服务器端地址 -->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop102:10020</value>
</property>
<!-- 历史服务器web端地址 -->
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop102:19888</value>
</property>

2、文件分发（可选）

rsync.py $HADOOP_HOME/etc/hadoop/mapred-site.xml

3、启动历史服务器（在hadoop102上）

mapred --daemon start historyserver

或

ssh hadoop102 'mapred --daemon start historyserver'

4、jps可以看到多了个JobHistoryServer

5、浏览器查看端口19888

6、关闭服务的命令

mapred --daemon stop historyserver

或

ssh hadoop102 'mapred --daemon stop historyserver'

2、日志聚集

目的：应用运行完成以后，将程序运行日志信息上传到HDFS（不配的话，信息存本地不好找）

1、配置（注意：yarn.log.server.url的hadoop102:19888要和上面历史服务器的mapreduce.jobhistory.webapp.address保持一致

vi $HADOOP_HOME/etc/hadoop/yarn-site.xml

<!-- 开启日志聚集  -->
<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<!-- 浏览器访问的URL -->
<property>  
    <name>yarn.log.server.url</name>  
    <value>http://hadoop102:19888/jobhistory/logs</value>
</property>
<!-- 保存的时间7天（3600*24*7） -->
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>

2、文件分发

cd $HADOOP_HOME/etc/hadoop/
rsync -va yarn-site.xml hadoop100:$HADOOP_HOME/etc/hadoop/
rsync -va yarn-site.xml hadoop101:$HADOOP_HOME/etc/hadoop/
rsync -va yarn-site.xml hadoop102:$HADOOP_HOME/etc/hadoop/

3、重启YARN和历史服务器

ssh hadoop102 "stop-yarn.sh"
ssh hadoop102 "mapred --daemon stop historyserver"

ssh hadoop102 "start-yarn.sh"
ssh hadoop102 "mapred --daemon start historyserver"

3、提交两个MapReduce任务

数据准备

cd ~
echo "a b c" > a.txt
echo "b c d" > b.txt
hadoop fs -rm -r /input
hadoop fs -rm -r /output1 /output2
hadoop fs -mkdir /input
hadoop fs -put a.txt /input/
hadoop fs -put b.txt /input/

提交任务（词频统计）

hadoop jar \
$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar \
wordcount \
/input /output1

hadoop jar \
$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar \
wordcount \
/input /output2

配置【日志聚集】后才能查看【log】

在HDFS上可以找到那个日志文件

4、补充

可选命令

yarn --daemon start timelineserver

然后jps可以看到多了个ApplicationHistoryServer
这个和序列化以及Spark有关？

yarn --daemon stop timelineserver