一、Hadoop的组成部分
1、HDFS(hadoop的组成部分,负责海量数据的存储)
NameNode(nn):管理真实的数据的元数据(也就是文件、日志、视频、图片、等)
DataNode(dn)主要进行负责真实数据的块存储
SecondaryNameNode(2nn):主要是对NameNode进行数据的备份,一般要恢复数据时候才会用到这个的
2、YARN(主要负责资源的调度)
ResourcesManager(rm):主要是负责管理每一台机器上的资源的调度,负责处理客户机上的作业请求
NodeManager(nm):负责每一台机器的资源管理,保证和ResourcesManager的通信
ApplicationMaster:针对于每个job进行的封装
3、MapReduce(主要是负责数的计算分析,映射和归约)
Map阶段:主要是将需要计算的数据按照相应的需求分成多个的MapTask任务来进行的执行
Reduce阶段:将经过Map阶段处理完的结果进行汇总计算
二、Hadoop运行环境的搭建:
1、准备虚拟机,进行最小化安装(不需要桌面的形式)
2、配置虚拟机的模板机
1)固定ip地址,进行修改主机