hadoop伪分布式布置安装

最新推荐文章于 2025-06-02 21:49:12 发布

原创最新推荐文章于 2025-06-02 21:49:12 发布 · 271 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop

hadoop 专栏收录该内容

37 篇文章

订阅专栏

本文详细介绍了如何配置伪分布模式下的Hadoop环境，包括解压安装包、配置Java环境、设置HDFS及YARN相关参数、启动守护进程、提交MapReduce任务等步骤，并列举了常见错误及其解决方案。

配置伪分布Hadoop
解压安装hadoop
【不要用root权限】
$ tar -zxf hadoop-2.5.0.tar.gz -C /opt/modules/

1.配置hadoop的java环境支持， ${HADOOP_HOME}/etc/hadoop目录下
hadoop-env.sh
mapred-env.sh
yarn-env.sh
export JAVA_HOME=/opt/modules/jdk1.7.0_ 67
这里写图片描述

2.与hdfs相关的配置 ${HADOOP_HOME}/etc/hadoop
1）core-site.xml
=============core-site.xml===================

fs.defaultFS
hdfs://vampire01:8020

<!--hadoop在运行时产生的文件，元数据在本地的存放目录 -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/module/hadoop-2.5.0/data</value>
</property>

2)hdfs-site.xml

=============hdfs-site.xml============

dfs.replication
1

3）格式化namenode  只格式化一遍，不要重复格式化
${HADOOP_HOME}目录下：

$ bin/hdfs namenode -format

倒数有一行写了 successfully formatted才算成功.
4）启动hdfs守护进程

$sbin/hadoop-daemon.sh start namenode //启动namenode进程$ sbin/hadoop-daemon.sh start datanode //启动datanode
这里写图片描述

web访问界面
http://bigdata.ibeifeng.com:50070/

**5)HDFS文件系统常用命令
$ bin/hdfs dfs   //可以查看所有的dfs相关的操作指令
$ bin/hdfs dfs -ls /  
$ bin/hdfs dfs -mkdir -p /input/test
$ bin/hdfs dfs  -rmdir /input/test**

$ bin/hdfs dfs -put /opt/software/jdk-7u67-linux-x64.tar.gz /input/test

3.配置YARN 任务调度（Mapreduce）资源管理（resourcemanager nodemanager）
${HADOOP_HOME}/etc/hadoop目录下配置yarn-site.xml
=======yarn-site.xml=====

yarn.resourcemanager.hostname
[hostname]

yarn.nodemanager.aux-services
mapreduce_shuffle

复制并重名模板文件
$cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml =======mapred-site.xml=====$ {HADOOP_HOME}/etc/hadoop目录下配置mapred-site.xml

mapreduce.framework.name
yarn

4.启动hdfs yarn进程
$sbin/hadoop-daemon.sh start namenode$ sbin/hadoop-daemon.sh start datanode
$sbin/yarn-daemon.sh start resourcemanager$ sbin/yarn-daemon.sh start nodemanager
这里写图片描述
5.检查hdfs yarn启动状态，即查看守护进程

6.向yarn提交mapreducer任务
这里写图片描述

1)计算圆周率
example: bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar  pi 5 3
2）wordcount词频统计
a.在用户主目录创建一个wordcount.txt
example: vi /home/user01/wordcount.txt
hadoop java
html java
linux hadoop
yarn hadoop

b.上传到hdfs的input目录下
$ bin/hdfs dfs -put ~/wordcoun.txt /input/

c.提交wordcount任务

example:
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /input /output

【报错】：再次执行wordcount会提示输出目录已存在
org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://hadoop.beifeng.com:8020/output already exists
【解决办法】
删除hdfs上的输出目录或者重新指定输出目录
【常见错误】：
1：主机名配置错误或者未配置主机名；
2：配置的参数【标签对】错误，标签对参数有空格
3：xml的注释格式错误，标签对未对齐
4：namenode重复格式化
5：修改配置参数未保存，进程未重启
6：路径有问题

7.配置日志聚合
=======mapred-site.xml=========
**追加到原来配置和后面

mapreduce.jobhistory.address

[hostname]:10020

mapreduce.jobhistory.webapp.address
[hostname]:19888

这里写图片描述
==============yarn-site.xml=======

yarn.log-aggregation-enable
true

yarn.log-aggregation.retain-seconds
86400

<code>这里写图片描述</code>
8.停止所有进程重新启动，以便配置文件生效