华为云OBS+HMS+EMRonEC2+HiveSparkFlink+GaussDB
一句话定位“这是华为云版的 AWS 数据湖方案:OBS 当 S3 存数据,LakeFormation(HMS) 做统一元数据,MRS on ECS 托管 Spark/Flink/Hive,GaussDB(DWS) 当云数仓。”
| 层级 | 华为云组件 | 对应 AWS 组件 | 核心能力一句话 |
|---|---|---|---|
| 存储层 | OBS | Amazon S3 | 对象存储,支持标准/低频/归档/深度归档四级存储,单桶 EB 级,跨域复制,WORM,生命周期 |
| 元数据层 | LakeFormation(HMS) | AWS Glue Catalog | 托管 Hive Metastore,统一 Schema;Catalog 固定名 hive,支持 IAM+桶策略双重权限 |
| 计算层 | MRS on ECS | EMR on EC2 | 一键部署 Hadoop/Spark/Flink 集群;Spot 混合、弹性伸缩;元数据直连 LakeFormation |
| 数仓层 | GaussDB(DWS) | Amazon Redshift | MPP 云数仓,支持列存、物化视图、结果缓存;可通过外表直接查询 OBS,亦支持 Flink 实时 sink |
华为云的 OBS + HMS + EMR on ECS + Hive/Spark/Flink + GaussDB 组合,构成了一套完整的国产化大数据处理与分析架构,覆盖数据存储(数据湖)、元数据管理、分布式计算到数据仓库的全流程。这套架构与 AWS 的 “S3+Glue+EMR+Redshift” 逻辑相似,但基于华为云生态实现,尤其适合对国产化、数据安全合规有要求的企业。
核心组件及角色
1. 华为云 OBS(对象存储服务):数据湖底座
定位:对应 AWS S3,是整个架构的 “数据湖”,用于存储全量原始数据。
功能:
支持结构化(CSV、JSON)、半结构化(日志、XML)、非结构化数据(图片、视频)的无限存储,兼容标准 S3 API。
提供多存储类别(标准、低频访问、归档),可根据数据访问频率自动切换,平衡成本与性能。
具备高持久性(99.999999999%)和高可用性,通过多可用区冗余存储保障数据安全。
场景:接收来自业务系统、IoT 设备、日志服务等的原始数据,例如电商的用户行为日志、订单数据、商品图片等,统一存储在obs://my-datalake/raw-data/路径下。

最低0.47元/天 解锁文章
1397

被折叠的 条评论
为什么被折叠?



