Hadoop 1.x 和 2.x/3.x 的架构有显著不同。1.x 的核心是 HDFS 和 MapReduce。 而从 2.x 开始,架构发生了革命性变化,引入了 YARN,将资源管理和作业调度与数据处理分离开来。因此,我们现在谈论Hadoop基础服务,通常指的是 Hadoop 2.x/3.x 的体系。
当前最主流的Hadoop基础服务主要包括以下四个核心组件:
- HDFS (Hadoop Distributed File System)
- YARN (Yet Another Resource Negotiator)
- MapReduce (分布式计算框架)
- Common (常用工具库)
下面我们逐一解释它们的作用。
1. HDFS (Hadoop Distributed File System) - 分布式文件系统
核心作用:提供跨多个通用计算机的、高可靠性的、高吞吐量的分布式数据存储。
它是Hadoop的存储基石,负责存储所有数据。其设计思想是“一次写入,多次读取”,非常适合大数据场景。
-
主要特点:
- 高容错性: 数据自动保存多个副本(默认3份),即使某个硬件故障,也能从其他副本恢复数据。
- 高吞吐量: 采用“数据本地化”原则,计算任务会被调度到存有数据的节点上,减少了网络传输,大大提高了数据访问速度。
- ** scalable(可扩展):** 可以轻松地通过增加普通机器来线

最低0.47元/天 解锁文章
1065

被折叠的 条评论
为什么被折叠?



