安装步骤:
一 安装jdk(安装oracle版本的jdk)
具体方法为:tar -xzvf *.tar.gz
假设得到的文件夹为java
将其移动到/usr/中
命令为:sudo mv java /usr/
然后设置环境变量:
sudo gedit /etc/profile
打开文件
在结尾处umask 022前,输入:
JAVA_HOME=/usr/java
export JRE_HOME=/usr/java/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
Ubuntu 中修改默认jdk
update-alternatives --install /usr/bin/java java /usr/java/bin/java300
update-alternatives --install /usr/bin/javac javac/usr/java/bin/javac 300
通过这一步将我们安装的jdk加入java选单。
update-alternatives --config java
选择默认的jdk
java -version
检查
二、 配置hosts文件
先简单说明下配置hosts文件的作用,它主要用于确定每个结点的IP地址,方便后续
master结点能快速查到并访问各个结点。在上述3个虚机结点上均需要配置此文件。由于需要确定每个结点的IP地址,所以在配置hosts文件之前需要先查看当前虚机结点的IP地址是多少,可以通过ifconfig命令进行查看,如本实验中,master结点的IP地址为:
如果IP地址不对,可以通过ifconfig命令更改结点的物理IP地址,示例如下:
通过上面命令可以将IP改为10.10.54.121。将每个结点的IP地址设置完成后,就可以配置hosts文件了,hosts文件路径为;/etc/hosts,我的hosts文件配置如下,大家可以参考自己的IP地址以及相应的主机名完成配置
10.10.54.122 node1
10.10.54.123 node2
10.10.54.121 master
三、 建立hadoop运行帐号
即为hadoop集群专门设置一个用户组及用户,这部分比较简单,参考示例如下:
sudo groupadd hadoop //设置hadoop用户组
sudo useradd –s /bin/bash –d /home/hadoop –m hadoop –g hadoop –G admin //添加一个zhm用户,此用户属于hadoop用户组,且具有admin权限。
sudo passwd root //设置用户hadoop登录密码
su hadoop //切换到hadoop用户中
四、 配置ssh免密码连入
在master上面执行
ssh-keygen -t rsa(密码为空,路径默认)
该命令会在用户主目录下创建 .ssh目录,并在其中创建两个文件:id_rsa私钥文件,是基于 RSA算法创建,该私钥文件要妥善保管,不要泄漏。id_rsa.pub公钥文件,和 id_rsa文件是一对儿,该文件作为公钥文件,可以公开
cp .ssh/id_rsa.pub .ssh/authorized_keys
把公钥追加到其他主机的authorized_keys文件中
ssh-copy-id -i .ssh/id_rsa.pub hadoop@node1
ssh-copy-id -i .ssh/id_rsa.pub hadoop@node2
可以在master上面通过ssh无密码登陆node1和node2
ssh master
ssh node1
ssh node2
五 下载hadoop的ta.gz包,将其解压到home/hadoop下。
、 配置hadoop环境变量 vi /etc/profile
export HADOOP_INSTALL=/root/src/hadoop/hadoop-0.20.2
export PATH=$PATH:$HADOOP_INSTALL/bin
六 配置hadoop
配置HADOOP运行参数
vi conf/masters
把localhost替换为:master
vi conf/slaves
删除localhost,加入两行:
master
node1
node2
vi conf/core-site.xml
<property>
<name>dfs.name.dir</name>
<value>/home/hadoop/dfs/filesystem/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/hadoop/dfs/filesystem/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
vi conf/mapred-site.xml
<property>
<name>mapred.job.tracker</name>
<value>master:9001</value>
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>4</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>4</value>
</property>
<property>
<name>mapred.system.dir</name>
<value>/home/hadoop/mapreduce/system</value>
</property>
<property>
<name>mapred.local.dir</name>
<value>/home/hadoop/mapreduce/local</value>
</property>
复制HADOOP文件到其他节点
scp -r /home/hadoop/hadoop-1.2.1hadoop@node1:/home/hadoop/hadoop-1.2.1
scp -r /home/hadoop/hadoop-1.2.1 hadoop@node2:/home/hadoop/hadoop-1.2.1
hadoop namenode -format
8、启动集群并查看WEB管理界面
start-all.sh
访问http://localhost:50030可以查看 JobTracker 的运行状态
访问http://localhost:50060可以查看TaskTracker的运行状态
访问http://localhost:50070可以查看 NameNode 以及整个分布式文件系统的状态,浏览分布式文件系统中的文件以及 log等
9、停止集群
stop-all.sh停止集群