一、HDP
(一)简介
HDP全称是Hortonworks Data Platform,是由一家美国大数据公司Hortonworks开发的企业级Hadoop平台。
Hortonworks致力于帮助客户利用Hadoop开源大数据平台管理数据。HDP是完全在开源的环境下设计、开发和构建的,它以 YARN 作为其架构中心,该平台支持一系列处理方法——批处理、交互式处理、实时处理。
(二)功能与特点
HDP的功能包括数据管理、数据访问、数据管制与集成、运营、安全性。图1.2.1是HDP的功能架构。
图1.2.1
1. 数据管理
图1.2.2
YARN和HDFS是HDP的核心组件。YARN是一种资源管理器,可以给上层应用提供统一的资源管理和调度。YARN将资源管理组件和任务处理组件分离,提供可插拔架构,可以支持广泛的数据访问方法。
HDFS 是一种分布式文件系统,它为大数据提供了有效可靠的存储,使得我们在大规模集群中以低成本更有效地存储共享数据集。
2. 数据访问
(1)YARN
YARN给各种处理引擎提供基础,HDP允许用户和数据以多种并行方式进行交互,并不需要为每个数据集或应用程序建立单独的集群,这样应用程序可以以最佳方式和数据交互。
Strom和Spark能满足这些需求,HDP作为真正的数据平台,它基于YARN的架构能够使尽可能广泛的访问方法共存于集群中,而避免不必要的、昂贵的数据存储成本。