1.要安装hadoop必须先要安装jdk,还需要hadoop的安装包我使用的是
2.解压jdk配置环境变量
解压命令:tar -zxvf jdk-8u121-linux-x64.tar.gz -C /usr/java
配置环境变量:vi /etc/profile
在profile里加上
export JAVA_HOME=/usr/java/jdk1.8.0_121
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
保存然后执行命令 :
source /etc/profile
再执行
java -version
3.解压hadoop安装包
tar -zxvf hadoop-2.6.3.tar.gz -C /home/hadoop
进入hadoop的安装目录
cd /home/hadoop/hadoop-2.6.3/etc/hadoop
hadoop的配置文件都在这里:
(1)配置hadoop-env.sh
进入/home/hadoop目录下面,用vi编辑器打开home/hadoop/hadoop-env.sh,在hadoop-env.sh末尾添加如下内容:
view plain copy
# set to the root of my java installation
export JAVA_HOME=/usr/java/jdk1.8.0_121
(2)配置core-site.xml
进入/opt/hadoop目录下面,用vi编辑器打开etc/hadoop/core-site.xml,在core-site.xml的<configuration></configuration>标签对之间添加如下内容:
view plain copy
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
(3)配置hdfs-site.xml
进入/home/hadoop目录下面,用vi编辑器打开etc/hadoop/hdfs-site.xml,在hdfs-site.xml的<configuration></configuration>标签对之间添加如下内容:
view plain copy
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/mengwx/hdfs/namenode</value>
</property>
<property>
<name>dfs.blocksize</name>
<value>268435456</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/mengwx/hdfs/datanode</value>
</property>
</configuration>
至此,基本配置完成。可以在本机上运行MapReduce任务。
#1:格式化文件系统
进入/opt/hadoop目录下面,命令行输入:
bin/hdfs namenode -format
#2:启动 NameNode 和 DataNode 的守护进程
在/opt/hadoop目录下面,命令行输入:
sbin/start-dfs.sh
Hadoop的守护进程的日志被写入到$HADOOP_LOG_GIR目录下面,默认是在$HADOOP_LOG_DIR/logs里面。
#3:通过web浏览器接口查看NameNode的情况
http://139.129.239.74:50070/
#4:建立 HDFS 文件目录
在/home/hadoop目录下面,命令行依次输入:
bin/hdfs dfs -mkdir /user
bin/hdfs dfs -mkdir /user/mengwx
#5:/home/hadoop目录下面,创建input目录
mkdir input
#6:把输入的文件拷贝到文件系统
在/home/hadoop目录下面,命令行依次输入:
cp home/hadoop/*.xml input //将etc/hadoop/目录下面所有的xml文件拷贝到input文件夹里面
bin/hdfs dfs -put home/hadoop input
#7:运行实例
在/opt/hadoop目录下面,命令行输入:
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.3.jar grep input output 'dfs[a-z.]+'
#8:查看实例运行结果
在/opt/hadoop目录下面,命令行依次输入:
bin/hdfs dfs -get output output
cat output/*
或者输入:
bin/hdfs dfs -cat output/*
#9:运行结束,关闭守护进程
在/home/hadoop目录下面,命令行输入:
sbin/stop-dfs.sh
(4)在 YARN上运行MapReduce的配置
#1:配置mapred-site.xml
进入/opt/hadoop目录下面,用vi编辑器打开etc/hadoop/mapred-site.xml,在mapred-site.xml的<configuration></configuration>标签对之间添加如下内容:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
#2:配置yarn-site.xml
进入/opt/hadoop目录下面,用vi编辑器打开etc/hadoop/yarn-site.xml:,在yarn-site.xml的<configuration></configuration>标签对之间添加如下内容:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
#3:启动ResourceManager和NodeManager的守护进程
在/opt/hadoop目录下面,命令行输入:
sbin/start-yarn.sh
#4:通过web浏览器接口查看ResourceManager的信息
http://139.129.239.74:8088/