Amazon EMR与AWS Glue:大数据处理的强大工具
1. 亚马逊弹性MapReduce(EMR)简介
EMR是一种适用于云端的Hadoop解决方案,无需对员工进行重新培训即可迁移到云端。它能根据处理需求进行扩展,通过仅收取实际使用费用并将计算和存储分离来降低成本。
- 核心特性
- 处理海量数据 :2009年推出的Amazon EMR,可利用Spark、Hive、Presto等开源大数据工具处理PB级数据。它是一个托管集群平台,能让用户轻松在AWS云上运行Apache Hadoop和Apache Spark等大数据工具,处理和分析海量数据集。
- 与S3无缝集成 :EMR可直接对存储在S3数据湖中的数据进行操作,无需移动或转换数据。S3数据湖具有可扩展性、安全性和成本效益,是存储数据的理想选择。
- 自动扩展和成本优化 :EMR能根据使用情况自动调整集群大小,用户只需为消耗的资源付费。它将计算和存储解耦,可分别独立扩展。存储方面可利用Amazon S3的分层存储,计算方面可使用Elastic Compute Cloud(EC2) Spot Instances,节省高达80%的按需实例成本。
2. EMR集群和节点
Amazon EMR以集群为中心,集群由多个Amazon EC2实例组成,这些实例被称为节点,每个节点在集群中都有特定功能。
|节点类型|作用|
超级会员免费看
订阅专栏 解锁全文
298

被折叠的 条评论
为什么被折叠?



