Hadoop技术:从本地集群到云端处理的全面指南
1. Hadoop 2与YARN的重要性
Hadoop 2的出现引发了广泛关注,其中YARN及其上层框架如Apache Tez和Apache Spark成为焦点。YARN让Hadoop集群不再只是批处理引擎,而是一个统一平台,可对HDFS中存储的大量数据应用各种处理技术。我们可以将YARN类比为处理内核,在此基础上能构建特定领域的应用。
2. Apache Hadoop发行版
早期,安装和管理Hadoop组件及其依赖的负担由用户承担。随着系统流行和第三方工具生态的发展,安装和管理Hadoop部署的复杂性急剧增加,于是出现了Hadoop发行版。这些发行版类似于Linux发行版,围绕核心提供集成软件,减轻了用户打包和安装的负担,并确保产品版本相互兼容。
常见的Hadoop发行版有:
| 发行版名称 | 特点 |
| ---- | ---- |
| Cloudera | 致力于开源,同时添加了用于配置和管理Hadoop的专有组件 |
| Hortonworks | 定位为开源参与者 |
| MapR | 提供混合开源/专有Hadoop发行版,具有专有NFS层而非HDFS,专注于提供服务 |
| Amazon EMR | 基于AWS基础设施的云端Hadoop服务 |
3. 本地集群与云端处理的双轨策略
采用本地Hadoop集群构建与管理,以及通过Amazon EMR将处理推向云端的双轨策略,原因有二:
- 虽然EMR使Hadoop更易访问,但某些技术细节只有在手动管理集群时才会显现。
- 许多
超级会员免费看
订阅专栏 解锁全文
1343

被折叠的 条评论
为什么被折叠?



