hadoop优势
- 高可靠性:底层维护多个数据副本
- 高扩展性:在集群间分配任务数据,方便的扩展,动态添加删除
- 高效性:并行工作
- 高容错性:自动分配失败的任务
hadoop组成
- mapreduce:数据计算
- yarn:资源调度
- hdfs:数据存储
- common:辅助工具
dhfs组成:
- namenode:存储文件元数据,文件名,目录结构,文件所在的datanode
- datanode:具体的存储数据和数据校验
- 2nn:对namenode数据进行备份
yarn组成
- resourceManager:管理整个集群的资源
- nodeManager:单个节点的服务器资源管理
- applicationMaster:单个任务管理
- container:容器
mapreduce组成(基于硬盘)
- map:数据计算
- reduce:数据汇总