注:本文的主要目的是为了记录自己的学习过程,也方便与大家做交流。转载请注明来自:
http://blog.youkuaiyun.com/ab198604/article/details/8250461
也许有人想知道安装hadoop集群需要什么样的电脑配置,这里只针对虚拟机环境,下面介绍下我自己的情况:
说完电脑的硬件配置,下面说说本人安装hadoop的准备条件:
有些人会问,为何要安装这个软件,这是一个VM公司提供的虚拟机工作平台,后面需要在这个平台上安装linux操作系统。具体安装过程网上有很多资料,这里不作过多的说明。
所以,在准备好这3个结点之后,需要分别将linux系统的主机名重命名(因为前面是复制和粘帖操作产生另两上结点,此时这3个结点的主机名是一样的),重命名主机名的方法:
通过修改hostname文件即可,这三个点结均要修改,以示区分。
以下是我对三个结点的ubuntu系统主机分别命名为:master, node1, node2
基本条件准备好了,后面要干实事了,心急了吧,呵呵,别着急,只要跟着本人的思路,一步一个脚印地,一定能成功布署安装好hadoop集群的。安装过程主要有以下几个步骤:
先简单说明下配置hosts文件的作用,它主要用于确定每个结点的IP地址,方便后续
如果IP地址不对,可以通过ifconfig命令更改结点的物理IP地址,示例如下:
即为hadoop集群专门设置一个用户组及用户,这部分比较简单,参考示例如下:
sudo groupadd hadoop //设置hadoop用户组
上述3个虚机结点均需要进行以上步骤来完成hadoop运行帐号的建立。
这一环节最为重要,而且也最为关键,因为本人在这一步骤裁了不少跟头,走了不少弯
SSH主要通过RSA算法来产生公钥与私钥,在数据传输过程中对数据进行加密来保障数
OK,废话就不说了,下面看看如何配置SSH免密码登录吧!~~
以上命令是产生公私密钥,产生目录在用户主目录下的.ssh目录中,如下:
Id_dsa.pub为公钥,id_dsa为私钥,紧接着将公钥文件复制成authorized_keys文件,这个步骤是必须的,过程如下:
即在单机结点上用ssh进行登录,看能否登录成功。登录成功后注销退出,过程如下:
注意标红圈的指示,有以上信息表示操作成功,单点回环SSH登录及注销成功,这将为后续跨子结点SSH远程免密码登录作好准备。
(3) 让主结点(master)能通过SSH免密码登录两个子结点(slave)
为了实现这个功能,两个slave结点的公钥文件中必须要包含主结点的公钥信息,这样
当master就可以顺利安全地访问这两个slave结点了。操作过程如下:
如上图所示,master已经可以通过ssh免密码登录至node1结点了。
关于安装包的下载就不多说了,不过可以提一下目前我使用的版本为hadoop-0.20.2,
这个版本不是最新的,不过学习嘛,先入门,后面等熟练了再用其它版本也不急。而且《hadoop权威指南》这本书也是针对这个版本介绍的。
注:解压后hadoop软件目录在/home/zhm/hadoop下
根据实际情况配置masters的主机名,在本实验中,masters主结点的主机名为master,
这样,结点node1和结点node2也安装了配置好的hadoop软件了。
注意:上面只要出现“successfully formatted”就表示成功了。
在主结点master上查看namenode,jobtracker,secondarynamenode进程是否启动。
在node1和node2结点了查看tasktracker和datanode进程是否启动。
在浏览器中输入:http://192.168.1.100:50030,网址为master结点所对应的IP: