- yarn : Hadoop 2.0 中的资源管理系统。总体上也是master/slave 结构,ResourceManager是master,NodeManager是slave。
Resourcemanager负责对各个NodeManager上资源进行统一管理和调度。当用户提交一个应用程序时,需要提供一个用以跟踪和管理这个程序的ApplicationMaster,它负责向ResourceManager申请资源,并要求NodeManager启动可以占用一定资源的任务。不同的ApplicationMaster被分布到不同的节点上,因此它们之间不会相互影响。
参考 NameNode和DataNode:都属于HDFS。
NameNode,是这个文件系统的管理节点,维护着 :
1整个文件系统的目录树
2文件、目录的元信息和每个文件对应的数据块列表
3接受用户的操作请求
DataNode,提供真实文件数据的存储服务。文件块(block)是最基本的存储单位。 Hadoop 默认块大小是128MB。每个块存储在一个或多个节点(datanode)。
参考SecondaryNameNode:辅助NameNode工作。NameNode在工作时始终在内存中存储元数据。NameNode有一个Edits log和fsimage的机制,在向hdfs中上传文件时,会先将这个操作记录写入Edits log,然后再进行修改。fsimage是磁盘中NameNode的镜像(元数据的备份),比较大,如果每次对hdfs的修改都去修改fsimage会很占内存,所以先将对hdfs的更改保存到edits log,edits log会定期合并到fsimage中来避免edits log过大。合并的操作就是由SecondaryNameNode来完成的。这一点似乎是借鉴数据库的维护。
[参考1] (https://www.cnblogs.com/zlslch/p/5836961.html)
[参考2] (https://blog.youkuaiyun.com/willwill101/article/details/52701517)