1.Hadoop
(1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
(2)Hadoop是一个能够对大量数据进行分布式处理的软件框架。
2.Hadoop的优点
(1)可靠,假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。
(2)高效,以并行的方式工作,通过并行处理加快处理速度。
(3)可伸缩,能够处理 PB 级数据。
(4)开源软件,成本低。
3.Hadoop的四个模块
- Hadoop Common:支持其他Hadoop模块的常用实用程序。
- Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
- namenode(名称节点)
- datanode(数据节点)
- secondarynamenode(辅助名称节点)
- Hadoop YARN:作业调度和集群资源管理的框架。
- resourcemanager(资源管理器)
- nodemanager(节点管理器)
- Hadoop MapReduce:基于YARN的系统,用于并行处理大型数据集。