Hadoop 技术入门:从本地集群到云端处理
1. Hadoop 2 与 YARN
Hadoop 2 中,YARN 及其上层框架如 Apache Tez 和 Apache Spark 备受关注。借助 YARN,Hadoop 集群不再只是批处理引擎,而是一个单一平台,可对 HDFS 中存储的大量数据应用各种处理技术。可以将 YARN 类比为处理内核,其他特定领域的应用可基于此构建。
2. Apache Hadoop 发行版
早期,用户需自行安装和管理 Hadoop 各组件及其依赖。随着系统流行和第三方工具生态的发展,安装和管理 Hadoop 部署的复杂性急剧增加,于是出现了 Apache Hadoop 发行版。
Hadoop 发行版概念上类似于 Linux 发行版,围绕核心提供集成软件包,减轻用户打包和安装的负担,提供易于安装、管理和部署 Apache Hadoop 及部分第三方库的方式,且发行版的产品版本相互兼容。
一些早期进入市场的发行版包括:
- Cloudera(http://www.cloudera.com):致力于开源,同时添加了用于配置和管理 Hadoop 的专有组件。
- Hortonworks(http://www.hortonworks.com):定位为开源参与者。
- MapR(http://www.mapr.com):提供混合开源/专有 Hadoop 发行版,采用专有 NFS 层而非 HDFS,专注于提供服务。
此外,亚马逊也是发行版生态中的强大参与者,在亚马逊网络服务(AWS)基础设施上提供名为 Elastic MapReduce(EMR)的 Hadoop 版本。
Hadoop技术:从本地集群到云端处理入门
超级会员免费看
订阅专栏 解锁全文
1584

被折叠的 条评论
为什么被折叠?



