Hadoop基本概念
什么是Hadoop
Hadoop是一个分布式基础框架,主要解决了海量的数据的存储和海量数据分析计算问题
有什么优势
高可靠性、高扩展性、高效性、高容错性
可靠性:Hadoop底层维护多个数据副本,即使某个计算元素或者存储出现故障,也不会丢失数据
扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点
高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度
容错性:能够自动将失败的任务重新分配
组成
HDFS
HDFS是一个分布式文件系统,主要三个角色:NameNode(nn)、DataNode(dn)、Secondary NameNode(2nn)
nn:存储文件的元数据,如文件名、文件目录、文件数据、文件块列表、块所在的DataNode
dn:在本地文件系统存储文件块数据,以及块数据的校验和
2nn:每隔一段时间对NameNode元数据进行备份
YARN
YARN是Hadoop的资源管理器,主要角色:ResourceManager、NodeManager、ApplicaitonMaster、Container
ResourceManager:集群资源(内存,CPU等)
NodeManager:单个节点服务器资源
ApplicaitonMaster:负责单个任务运行
Container:相当于一台单独的服务器,内部封装了任务运行所需资源(内存、CPU、磁盘、网络等)
MapReduce
MapReduce将计算分成了两个阶段,处理输入数据(Map)和整合资源(Reduce)
HDFS:
Hadoop-HDFS详情