Hadoop最核心的框架由两部分组成,HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)和YARN(Yet Another Resource Negotiator,另一种资源协调者)。其中HDFS包括NameNode和DataNode,YARN包括ResourceManager和NodeManager,ResourceManager对应NameNode,NodeManager对应DataNode。
NameNode是主服务器,负责管理和维护HDFS目录系统并控制文件的读写操作;多个DataNode服务器负责储存数据,图中只有3个DataNode,但实际中的大型集群可以有成千上万个节点。
HDFS负责存储文件,YARN采用了分布式计算的技术,负责计算。YARN是MapReduce的构架,是一种高效率的资源管理中心,其中Map可以将任务切分为更小的任务,由每台计算机分别运行;Reduce将所有计算机的运行结果整理,返回最终的结果。
上图可以跟HDFS的图对应起来看,ResourceManager管理NameNode,NodeManager分别管理各个DataNode。由此Hadoop就可以实现文件的存储和计算。
一、安装JDK
打开终端,输入如下命令安装JDK:
sudo apt-get install default-jdk
sudo是linux系统管理指令,它允许系统管理员让普通用户执行一些或者全部的root命令的一个工具。Linux中的root类似于Windows中的系统管理员,有最高的权限,sudo可以赋予我们操作各种文件的权限。
安装完后输入如下命令获取java的安装路径,后续配置hadoop文件hadoop-env.sh需要使用。
update-alternatives --display java
二、下载Hadoop
进入Ha