一、hadoop安装
1、上传安装包
2、在家目录创建一个cloud目录
mkdir /home/cloud
3、解压
tar -zxvf hadoop-1.1.2.tar.gz -C /home/cloud/
二、hadoop配置文件修改
1、修改hadoop-env.sh
vim hadoop-env.sh
export JAVA_HOME=/usr/java/jdk1.6.0_45
2、修改core-site.xml
vim core-site.xml
<!-- 指定HDFS的老大即为namenode的通信地址 -->
<!-- itcast为主机名也可以配置IP,或者localhost -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://itcast:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/cloud/hadoop-1.1.2/tmp</value>
</property>
fs.defaultFS:用来设置Hadoop的默认文件系统,HDFS的守护线程通过该属性项来确定HDFS namenode的主机及端口,如果没有指定,就是用默认的本地文件系统。
hadoop.tmp.dir:指定hadoop运行时产生文件的存放目录,比如当你上传文件到hdfs时,mapreduce产生的文件等都存储在这里
3、修改hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
dfs.replication:文件系统复本数量,我们设置为1,HDFS就不会按默认设置将文件系统复本设置为3,当在单独一个datanode运行时,不会持续给出复本不足的错误
4、修改mapred-site.xml
<property>
<!--告诉hadop以后MR运行在YARN上-->
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
mapreduce.framework.name:设置为yarn,指的是使用yarn运行mapreduce程序,yarn是hadoop 2引入的,是用来改善mapreduce的实现,由于具有通用性,yarn同样也可以支持其他的分布式计算模式。
5、修改yarn-site.xml
<property>
<!--以后nodemanager获取数据的方式为shuffle方式-->
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<!--指定yarn的老大resourcemanager的地址 itcast01为主机名-->
<name>yarn.resourcemanager.hostname</name>
<value>itcast01</value>
</property>
yarn.nodemanager.aux-services:NodeManager上运行的附属服务。需配置成mapreduce_shuffle,才可运行MapReduce程序
yarn.resourcemanager.hostname:RM的hostname,
参考:apache 默认配置文件 yarn-default.xml
3、将hadoop添加到环境变量
export HADOOP_HOME=/home/cloud/hadoop-1.1.2
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
linux引用环境变量使用 :分割,windows引用环境变量使用 ;分割。