1、hadoop
主要解决,海量数据的存储和计算。
优势:高可靠性(数据有备份),高扩展性(动态增加节点),高效性(多台服务器并行计算),高容错(失败的任务重新分配到其他服务器)。
2、hadoop组成
1、HDFS架构
一、NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
二、DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
三、Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。
一个nn对应多个dn,2nn是做nn备份的防止nn挂机出现数据的丢失。
2、YARN架构
3、MapReduce架构
MapReduce 将计算过程分为两个阶段:Map 和 Reduce
1)Map 阶段并行处理输入数据
2)Reduce 阶段对 Map 结果进行汇总
4、 HDFS、YARN、MapReduce 三者关系
大致流程 首先第一步《HDFS阶段》NameNode配置多个数据存储点DataNode,并且有他的备份文件SecondaryNameNode。
第二步《YARN阶段》client提交查找任务给ResourceManager下的某个NodeManager,然后NodeManager创建一个App Mstr单个任务老大访问ResourceManager分配资源(内存,cpu)。
第三步《MapReduce阶段》App Mstr创建多个Map Task任务查询多个节点数据,查询结果Reduce Task任务返回给App Mstr。
码字不易,给个赞或者关注吧,希望大家一起进步