Hadoop是Apache旗下的一个开源分布式计算平台,本文主要为Hadoop平台的安装与相关配置。
环境
本文为Ubuntu 14.04版本,64位系统。
基于Hadoop 2.7.3版本,也可适用于2.x.x版本。
安装准备
首先需要在系统安装JDK(Java语言软件开发工具包)和SSH(安全外壳协议)。
1.安装JDK
(1)下载
在www.oracle.com下载JDK,此处下载的为jdk 1.8.0_111
(2)安装
创建JDK安装目录,使用:mkdir /usr/jdk ;
解压安装包到刚才创建的安装目录中,使用:tar zxvf jdk-8u111-linux-x64.tar.gz -C ./usr/jdk ;
(3)配置环境变量
打开profile文件进行编辑,使用:gedit /etc/profile
在文件最后添加如下内容:
export JAVA_HOME=/usr/jdk/jdk1.8.0_111
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
(4)验证JDK是否安装完成
使用命令:java -v
出现以下信息:
java version "1.8.0_111"
Java(TM) SE Runtime Environment (build 1.8.0_111-b14)
Java HotSpot(TM) 64-Bit Server VM (build 25.111-b14, mixed mode)
sail@sail-ThinkPad-Edge-S420:~$
2.安装SSH
(1)下载安装
使用命令:sudo apt-get install ssh
(2)配置免密码登录本机
查看用户下是否存在.ssh隐藏文件,本用户名为sail,使用命令:ls -a /home/sail ;
生成秘钥,使用命令: ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa ;
将公钥追加到用于认证的公钥文件中,使用命令:cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
(3)验证ssh安装成功,并且可以免密登录本机
使用命令:ssh -V
显示以下信息:
OpenSSH_6.6.1p1 Ubuntu-2ubuntu2.8, OpenSSL 1.0.1f 6 Jan 2014
免密登录本机,使用命令:ssh localhost
安装Hadoop
1.更新apt
使用命令:sudo apt-get update
2.下载Hadoop
在http://hadoop.apache.org 下载Hadoop
3.安装Hadoop
本次下载为Hadoop 2.7.3版本
解压安装包到用户目录下,使用命令:tar -zxf hadoop-2.7.3.tar.gz -C /usr/home
解压后即可使用,可查看版本信息确认
使用命令切换到hadoop目录:cd /usr/home/hadoop-2.7.3
查看版本信息:./bin/hadoop version
Hadoop单机配置
Hadoop默认模式为单机模式,无须配置,被认为是一个单独的Java进程,可用来进行调试。
Hadoop伪分布式配置
(1)在伪分布式模式下,需要修改两个配置文件,分别为core-site.xml和hdfs-site.xml,
均位于目录/usr/home/hadoop-2.7.3/etc/hadoop 中。
使用命令切换到目录下:cd /usr/home/hadoop-2.7.3/etc/hadoop
修改配置文件core-site.xml:gedit core-site.xml
在<configuration></configuration>中间添加以下信息成为:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
修改配置文件hdfs-site.xml:gedit hdfs-site.xml
在<configuration></configuration>中间添加以下信息成为:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
(2)格式化HDFS文件系统
切换到Hadoop目录下,使用命令:cd /usr/home/hadoop-2.7.3;
执行格式化:./bin/hdfs namenode -format
执行成功显示 “has been successfully formatted”和“Exiting with status 0”
(3)启动
使用命令:./sbin/start-dfs.sh
显示以下信息:
启动完成后,可以使用命令查看是否成功,使用:jps
显示以下信息:
2947 DataNode
4372 Jps
3156 SecondaryNameNode
3365 ResourceManager
3516 NodeManager
3967 NameNode
本教程就此完成。