阿里云EMR产品介绍及常见问题解答

最新推荐文章于 2025-03-27 14:05:33 发布

转载最新推荐文章于 2025-03-27 14:05:33 发布 · 452 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://yq.aliyun.com/articles/573448

文章标签：

#运维 #大数据 #数据库

本文介绍了EMR在大数据处理中的优势，包括弹性动态伸缩、灵活软件栈选择、低成本数据存储及运维机制。同时探讨了大数据处理中常见的问题如数据迁移、数据倾斜等，并提供了具体的解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、大数据概述

0ebfcaf38d5754e624f65c219dcf5b3680420085

二、视频大客户对于数据中心的需求

0b1c9ba962480512a299a4b5a87e888e037ab459

ce5a577ee72c39067a47ad8fbd40393adfa93a16

三、传统大数据技术演进

64fb8f5959e676ee8320b44f871a5ccbc165d253

四、EMR介绍

43b46417fab6d4157a9f186ed956a38aefee869c

五、为什么选择EMR

弹性动态伸缩

基于ECS之上，快捷的扩容、缩容EMR Hadoop集群。

灵活软件栈选择

灵活、快速部署开源大数据服务(HBase、Kafka、Impala、Flink等)。

数据存储成本低

D1机型使用本地盘，价格远低于云盘；OSS低成本存储冷数据。

运维机制

钉钉群支持，快速解决集群使用问题。减少运维工作，更专注于业务。

六、典型问题及解决方案

数据迁移问题

Hive，HBase数据库结构同步，HDFS数据PB级历史数据同步。如何保证线上实时任务不受影响？

元数据库同步：Hadoop distcp filter (Hadoop 2.8之后支持)。Flume配置双写，多个sink。

数据倾斜问题

现象：MapReduce任务卡在最后一个或几个Reduce。

原因：数据分布不均匀，导致大量的数据分配到了一个节点。

问题：

执行Hive任务时，Flume刚好rename文件，会提示文件不存在的错误。

解决办法：hdfs.inUsePrefix=.生成的文件名增加前缀。

问题：

多台服务器同时写入，默认的文件名重复。

解决办法：修改HDFS sink源码，生成的文件默认增加当前服务器的hostname。

问题：

实时性与小文件过多。

解决办法：离线insert overwrite table，重新生成文件。通过MapReduce 在map之后生成新文件的特性，合并小文件。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。