hadoop伪分布式布置安装

本文详细介绍了如何配置伪分布模式下的Hadoop环境,包括解压安装包、配置Java环境、设置HDFS及YARN相关参数、启动守护进程、提交MapReduce任务等步骤,并列举了常见错误及其解决方案。

配置伪分布Hadoop
解压安装hadoop
【不要用root权限】
$ tar -zxf hadoop-2.5.0.tar.gz -C /opt/modules/

1.配置hadoop的java环境支持, ${HADOOP_HOME}/etc/hadoop目录下
hadoop-env.sh
mapred-env.sh
yarn-env.sh
export JAVA_HOME=/opt/modules/jdk1.7.0_ 67
这里写图片描述

2.与hdfs相关的配置 ${HADOOP_HOME}/etc/hadoop
1)core-site.xml
=============core-site.xml===================


fs.defaultFS
hdfs://vampire01:8020

<!--hadoop在运行时产生的文件,元数据在本地的存放目录 -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/module/hadoop-2.5.0/data</value>
</property>

这里写图片描述

2)hdfs-site.xml

=============hdfs-site.xml============


dfs.replication
1

这里写图片描述

3)格式化namenode  只格式化一遍,不要重复格式化
${HADOOP_HOME}目录下:

$ bin/hdfs namenode -format

倒数有一行写了 successfully formatted才算成功.
4)启动hdfs守护进程

sbin/hadoopdaemon.shstartnamenode//namenode sbin/hadoop-daemon.sh start datanode //启动datanode
这里写图片描述

web访问界面
http://bigdata.ibeifeng.com:50070/

**5)HDFS文件系统常用命令
$ bin/hdfs dfs   //可以查看所有的dfs相关的操作指令
$ bin/hdfs dfs -ls /  
$ bin/hdfs dfs -mkdir -p /input/test
$ bin/hdfs dfs  -rmdir /input/test**

$ bin/hdfs dfs -put /opt/software/jdk-7u67-linux-x64.tar.gz /input/test

3.配置YARN 任务调度 (Mapreduce) 资源管理(resourcemanager nodemanager)
${HADOOP_HOME}/etc/hadoop目录下配置yarn-site.xml
=======yarn-site.xml=====


yarn.resourcemanager.hostname
[hostname]



yarn.nodemanager.aux-services
mapreduce_shuffle

这里写图片描述

复制并重名模板文件
cpetc/hadoop/mapredsite.xml.templateetc/hadoop/mapredsite.xml=======mapredsite.xml===== {HADOOP_HOME}/etc/hadoop目录下配置mapred-site.xml



mapreduce.framework.name
yarn

这里写图片描述

4.启动hdfs yarn进程
sbin/hadoopdaemon.shstartnamenode sbin/hadoop-daemon.sh start datanode
sbin/yarndaemon.shstartresourcemanager sbin/yarn-daemon.sh start nodemanager
这里写图片描述
5.检查hdfs yarn启动状态,即查看守护进程

6.向yarn提交mapreducer任务
这里写图片描述

1)计算圆周率
example: bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar  pi 5 3
2)wordcount词频统计
a.在用户主目录创建一个wordcount.txt
example: vi /home/user01/wordcount.txt
hadoop java
html java
linux hadoop
yarn hadoop

b.上传到hdfs的input目录下
$ bin/hdfs dfs -put ~/wordcoun.txt /input/

c.提交wordcount任务

example:
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /input /output

【报错】:再次执行wordcount会提示输出目录已存在
org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://hadoop.beifeng.com:8020/output already exists
【解决办法】
删除hdfs上的输出目录或者重新指定输出目录
【常见错误】:
1:主机名配置错误或者未配置主机名;
2:配置的参数【标签对】错误,标签对参数有空格
3:xml的注释格式错误,标签对未对齐
4:namenode重复格式化
5:修改配置参数未保存,进程未重启
6:路径有问题

7.配置日志聚合
=======mapred-site.xml=========
**追加到原来配置和后面

mapreduce.jobhistory.address

[hostname]:10020


mapreduce.jobhistory.webapp.address
[hostname]:19888

这里写图片描述
==============yarn-site.xml=======


yarn.log-aggregation-enable
true



yarn.log-aggregation.retain-seconds
86400

<code>这里写图片描述</code>
8.停止所有进程重新启动,以便配置文件生效

查看hdfs的web界面
http://hadoop.beifeng.com:50070
*28724 NameNode
*28808 DataNode

查看yarn的web访问界面
http://hadoop.beifeng.com:8088
*28904 ResourceManager
28724 NameNode
28808 DataNode
*29152 NodeManager

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值