AWS EMR（Elastic MapReduce）详解

最新推荐文章于 2025-08-29 20:02:02 发布

原创最新推荐文章于 2025-08-29 20:02:02 发布 · 1k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#aws #mapreduce #云计算

大数据专栏收录该内容

127 篇文章

订阅专栏

以下是对 AWS EMR（Elastic MapReduce） 的深度解析，涵盖核心架构、核心功能、最佳实践及企业级应用场景：

一、EMR 核心定位

核心价值：
AWS EMR 是托管的大数据处理平台，基于开源框架（Hadoop/Spark/Hive/Flink/Presto等）构建，提供分钟级集群部署、自动伸缩、成本优化能力，解决企业级大数据处理的运维复杂性。

二、核心架构解析

1. 集群组成

组件	作用
Master Node	管理节点（1个主节点 + 可选备用节点），运行 YARN ResourceManager、HDFS NameNode
Core Node	存储和计算节点（不可缩容），运行 YARN NodeManager、HDFS DataNode
Task Node	纯计算节点（可弹性伸缩），仅运行 YARN NodeManager（无存储）
EMRFS	替代 HDFS，直接读写 S3（支持一致性视图）

2. 存储架构

S3 为核心存储：
- 原始数据、计算结果持久化到 S3（无需 HDFS）
- 通过 EMRFS S3-optimized Committer 确保 Spark 写 S3 的 Exactly-Once
本地缓存加速：
- Alluxio 或 HDFS 缓存 热数据到本地磁盘（减少 S3 读取延迟）

3. 计算引擎优化

EMR Runtime：
- AWS 优化的 Spark/Hive 引擎（比开源版快 3x）
- 特性：向量化执行、动态分区裁剪、C++ 加速 ORC/Parquet 编解码
定制化组件：
- EMR Notebooks（基于 JupyterLab 的交互式分析）
- EMR Studio（可视化开发 IDE，集成 Git/JDBC）

三、关键功能详解

1. 集群生命周期管理

快速启动：3分钟创建集群（预置 AMI 镜像）
自动伸缩：
- 规则驱动：基于 YARN 队列利用率、S3 积压数据量
- 预测性伸缩：AI 预测负载自动扩缩 Task 节点
集群复用模式：
- 长期运行集群：适合流处理（如 Kafka+Spark Streaming）
- 瞬时集群（Transient）：任务完成后自动销毁（ETL 批处理）

2. 深度集成 AWS 服务

服务	集成能力
AWS Glue	元数据统一管理（替代 Hive Metastore），自动 ETL 编排
Lake Formation	数据湖权限控制（列级/行级安全）
Kinesis	实时流处理（EMR 集群直接消费 Kinesis 数据）
Redshift	通过 EMR Spark Connector 直读 Redshift（下推计算）

3. 企业级安全

网络隔离：部署在私有 VPC，安全组控制访问
数据加密：
- 传输加密：TLS 1.2+
- 静态加密：S3-SSE/KMS、本地磁盘 AES-256
权限控制：
- IAM Role：细粒度控制 EMR 集群操作权限
- Ranger：集成 Kerberos 实现 Hive/Spark ACL

四、成本优化策略

1. 实例选型技巧

场景	推荐实例	节省方案
主节点（Master）	`m5.2xlarge`（高可用）	预留实例（RI）节省 40%
Core 节点（存储密集型）	`i3.4xlarge`（NVMe SSD）	无需额外 EBS 卷
Task 节点（计算密集型）	`c5.4xlarge`（高 vCPU）	Spot 实例降价 70%

2. 自动伸缩配置

{
  "Name": "ComputeOptimized",
  "Rules": [
    {
      "Action": { "ScalingAdjustment": 1 },
      "Trigger": { "CloudWatchAlarm": "YARNMemoryAvailablePercentage < 15% for 5min" }
    },
    {
      "Action": { "ScalingAdjustment": -1 },
      "Trigger": { "CloudWatchAlarm": "ContainerPendingRatio < 0.2 for 10min" }
    }
  ]
}

3. 存储优化

S3 分级存储：
- 原始数据 → S3 Standard
- 冷数据 → S3 Glacier（成本降 50%）
EBS 卷配置：
- 根卷：100GB GP2（OS 系统）
- 数据卷：500GB GP3（高 IOPS）

五、典型应用场景

1. 批处理 ETL

# 使用 PySpark 读取 S3 数据 → 转换 → 写入 Redshift
df = spark.read.parquet("s3://raw-data/")
df.filter(df["amount"] > 100).write.format("redshift").save()

优化技巧：
- 启用 EMR Managed Scaling 自动扩缩容
- 使用 Glue Data Catalog 统一元数据

2. 实时流处理

// 消费 Kinesis 数据 → Spark Streaming 处理 → 写入 S3
val stream = KafkaUtils.createDirectStream(ssc, ...)
stream.map(_.value).saveAsTextFiles("s3://real-time-output/")

架构优势：
- EMR 集群与 Kinesis 同区域部署（<5ms 延迟）
- Checkpoint 持久化到 S3（故障恢复）

3. 交互式分析

方案：Presto on EMR + Athena
- Presto 集群处理即席查询
- Athena 直接查询 S3 历史数据（无集群成本）

六、运维与监控

1. 日志与诊断

日志位置：
- 集群日志自动上传到 S3（路径：s3://bucket/elasticmapreduce/jobflow-id/）
关键指标监控（CloudWatch）：
- HDFSUtilization（HDFS 使用率）
- ContainerPendingRatio（YARN 资源等待率）

2. 故障恢复

主节点高可用：启用多主节点（额外付费）
自动修复：
- 节点健康检查失败 → 自动替换
- 支持配置自定义修复脚本

七、EMR 6.x 新特性

EMR Serverless（无服务器模式）：
- 无需管理集群，按 vCPU/秒计费
- 自动伸缩粒度到单个 Task
性能升级：
- Spark 3.3+：支持 Adaptive Query Execution
- Trino (PrestoSQL) 替代 Presto
机器学习集成：
- 预装 SageMaker Spark SDK，直接调用 SageMaker 模型

八、成本对比示例

任务	传统 Hadoop	EMR（优化后）
处理 100TB 数据	自建集群：$8,200	$1,900
成本构成	硬件+运维+电费	EC2 Spot + S3 存储
时间开销	集群维护 20h/月	运维接近 0