Hadoop MapReduce:原理、架构与应用实践
1. MapReduce编程模型概述
你可能认为MapReduce编程模型不够强大和灵活,因为它主要定义了如何将输入数据转换为键值对元组,以及如何从聚合的元组中获取结果。但实际上,它能编写许多日常数据分析所需的应用程序,众多公司的Hadoop用例已证明了这一点。
2. Hadoop MapReduce架构
Hadoop MapReduce目前运行在YARN上,YARN是Hadoop项目开发的资源管理器,它管理Hadoop集群的所有资源以及每个用户提交的应用程序的调度。YARN是一个通用的资源管理框架,并非专门针对MapReduce应用程序,如今很多框架应用如Spark、Storm和HBase都能在YARN上运行。
2.1 YARN组件
- ResourceManager :管理YARN集群的整个内存和CPU核心,决定为每个应用程序分配多少内存和CPU核心。应用程序完成后,它会收集每个任务生成的日志文件,以便查找应用程序中任何失败的原因。通常一个YARN集群只有一个ResourceManager。
- NodeManager :管理具体任务。从应用程序主节点请求为每个任务启动一个称为容器的进程后,会在每个节点上执行此操作。它是YARN集群中的从服务器,增加YARN集群中的服务器通常意味着增加由NodeManager管理的服务器。YARN集群在内存和CPU核心方面的总容量由NodeManager管理的从服务器数量决定。
下面是提交MapRedu
Hadoop MapReduce原理解析
超级会员免费看
订阅专栏 解锁全文
995

被折叠的 条评论
为什么被折叠?



