HDFS和YARN的启动方式
8.1三种启动方式介绍
Ü 方式一:逐一启动(实际生产环境中的启动方式)
hadoop-daemon.sh
yarn-daemon.sh
Ü 方式二:分开启动
start-dfs.sh
start-yarn.sh
Ü 方式三:一起启动
start-all.sh
8.2脚本解读
start-dfs.sh脚本:
(1) 通过命令bin/hdfs getconf –namenodes查看namenode在那些节点上
(2) 通过ssh方式登录到远程主机,启动hadoop-deamons.sh脚本
(3) hadoop-deamon.sh脚本启动slaves.sh脚本
(4) slaves.sh脚本启动hadoop-deamon.sh脚本,再逐一启动
start-all.sh脚本:
说明:start-all.sh实际上是调用sbin/start-dfs.sh脚本和sbin/start-yarn.sh脚本
8.3三种启动方式的关系
start-all.sh其实调用start-dfs.sh和start-yarn.sh
start-dfs.sh调用hadoop-deamon.sh start-yarn.sh调用yarn-deamon.sh
如下图:
8.4为什么要设置ssh协议
8.5配置ssh无秘钥登录
(1) 为什么要配置ssh协议
当执行start-dfs.sh脚本时,会调用slaves.sh脚本,通过ssh协议无密码登陆到其他节点去启动进程。
为了能自动启动远程节点的进程,需要进行免密码登录。
(1) SSH协议简介
u SSH是一种网络协议,用于计算机之间的加密登录。
u 如果一个用户从本地计算机,使用SSH协议登录另一台远程计算机,可以认为,这种登录是安全的,即使被中途截获,密码也不会泄露。
u 最早的时候,互联网通信都是明文通信,一旦被截获,内容就暴露无疑。1995年,芬兰学者Tatu Ylonen设计了SSH协议,将登录信息全部加密,成为互联网安全的一个基本解决方案,迅速在全世界获得推广,目前已经成为Linux系统的标准配置。
需要指出的是,SSH只是一种协议,存在多种实现,既有商业实现,也有开源实现。本文针对的实现是OpenSSH,它是自由软件,应用非常广泛。
(2) SSH的基本用法
SSH主要用于远程登录。假定你要以用户名user,登录远程主机host,只要一条简单命令就可以了。
$ ssh user@host
如果本地用户名与远程用户名一致,登录时可以省略用户名。
$ ssh host
SSH的默认端口是22,也就是说,你的登录请求会送进远程主机的22端口。使用p参数,可以修改这个端口。
$ ssh -p 33user@host
上面这条命令表示,ssh直接连接远程主机的33端口。
(3) 公钥加密原理与过程
1> 远程主机收到用户的登录请求,把自己的公钥发给用户。
2> 用户使用这个公钥,将远程主机的登录密码加密后,再发送给远程主机。
3> 远程主机用自己的私钥,解密登录密码,如果密码正确,就同意用户登录。
(4) 中间人攻击
上面这个过程本身是安全的,但是实施的时候存在一个风险:如果有人截获了登录请求,然后冒充远程主机,将伪造的公钥发给用户,那么用户很难辨别真伪。因为不像https协议,SSH协议的公钥是没有证书中心(CA)公证的,也就是说,都是自己签发的。
可以设想,如果攻击者插在用户与远程主机之间(比如在公共的wifi区域),用伪造的公钥,获取用户的登录密码。再用这个密码登录远程主机,那么SSH的安全机制就荡然无存了。这种风险就是著名的"中间人攻击"(Man-in-the-middle attack)。
SSH协议是如何应对的呢?
通过口令登录或者公钥登录。
(5) 口令登录
使用ssh协议登录
$ ssh user@host
如果你是第一次登录对方主机,系统会出现下面的提示:
The authenticity of host 'host (12.18.429.21)'can't be established.
RSA key fingerprint is 98:2e:d7:e0:de:9f:ac:67:28:c2:42:2d:37:16:58:4d.
Are you sure you want to continue connecting(yes/no)?
这段话的意思是,无法确认host主机的真实性,只知道它的公钥指纹,问你还想继续连接吗?
所谓"公钥指纹",是指公钥长度较长(这里采用RSA算法,长达1024位),很难比对,所以对其进行MD5计算,将它变成一个128位的指纹。上例中是98:2e:d7:e0:de:9f:ac:67:28:c2:42:2d:37:16:58:4d,再进行比较,就容易多了。
很自然的一个问题就是,用户怎么知道远程主机的公钥指纹应该是多少?回答是没有好办法,远程主机必须在自己的网站上贴出公钥指纹,以便用户自行核对。
假定经过风险衡量以后,用户决定接受这个远程主机的公钥。
Are you sure you wantto continue connecting (yes/no)? yes
系统会出现一句提示,表示host主机已经得到认可。
Warning: Permanentlyadded 'host,12.18.429.21' (RSA) to the list of known hosts.
然后,会要求输入密码。
Password: (enterpassword)
如果密码正确,就可以登录了。
当远程主机的公钥被接受以后,它就会被保存在文件$HOME/.ssh/known_hosts之中。下次再连接这台主机,系统就会认出它的公钥已经保存在本地了,从而跳过警告部分,直接提示输入密码。
每个SSH用户都有自己的known_hosts文件,此外系统也有一个这样的文件,通常是/etc/ssh/ssh_known_hosts,保存一些对所有用户都可信赖的远程主机的公钥。
(6) 公钥登录
使用密码登录,每次都必须输入密码,非常麻烦。好在SSH还提供了公钥登录,可以省去输入密码的步骤。
所谓"公钥登录",原理很简单,就是用户将自己的公钥储存在远程主机上。登录的时候,远程主机会向用户发送一段随机字符串,用户用自己的私钥加密后,再发回来。远程主机用事先储存的公钥进行解密,如果成功,就证明用户是可信的,直接允许登录shell,不再要求密码。
这种方法要求用户必须提供自己的公钥。如果没有现成的,可以直接用ssh-keygen生成一个:
$ ssh-keygen –t rsa
-t:指定密钥的类型,默认为SSH-2 的rsa类型;
运行上面的命令以后,系统会出现一系列提示,可以一路回车。
运行结束以后,在$HOME/.ssh/目录下,会新生成两个文件:id_rsa.pub和id_rsa。前者是你的公钥,后者是你的私钥。
(7) authorized_keys文件
远程主机将用户的公钥,保存在登录后的用户主目录的$HOME/.ssh/authorized_keys文件中。公钥就是一段字符串,只要把它追加在authorized_keys文件的末尾就行了。
发送authorized_keys文件到远程主机
$ ssh-copy-id hadoop@host
登录远程主机~/.ssh目录下下,发现多了一个authorized_keys文件
使用ssh协议登录远程主机,将主机信息添加到远程主机的信任列表中
ssh localhost
exit
ssh hadoop-yarn.dragon.org
登录成功就说明配置无密码登录OK了。
退出来查看~/.ssh/目录下的knowhosts文件,发现多了一个localhost
如果还是不行,就打开远程主机的/etc/ssh/sshd_config这个文件,检查下面几行前面"#"注释是否取掉。
RSAAuthentication yes
PubkeyAuthenticationyes
AuthorizedKeysFile.ssh/authorized_keys
然后,重启远程主机的ssh服务。
// ubuntu系统
service ssh restart
// debian系统
/etc/init.d/sshrestart
8.6 采用第二种启动方式
上面已经配置好了ssh公钥登录,接下来用第二种启动方式启动
Step1:先停止所以进程(如果已经启动)
[hadoop@hadoop-yarn hadoop-2.2.0]$sbin/yarn-daemon.sh stop nodemanager
[hadoop@hadoop-yarn hadoop-2.2.0]$sbin/yarn-daemon.sh stop resourcemanager
[hadoop@hadoop-yarn hadoop-2.2.0]$sbin/hadoop-daemon.sh stop datanode
[hadoop@hadoop-yarn hadoop-2.2.0]$sbin/hadoop-daemon.sh stop secondarynamenode
[hadoop@hadoop-yarn hadoop-2.2.0]$sbin/hadoop-daemon.sh stop namenode
Step2:启动所以进程
[hadoop@hadoop-yarn hadoop-2.2.0]$sbin/start-dfs.sh
[hadoop@hadoop-yarn hadoop-2.2.0]$ sbin/start-yarn.sh
Step3:查看管理界面
http://hadoop-yarn.dragon.org:8088/
http://hadoop-yarn.dragon.org:50070/