华为云OBS+HMS+EMRonEC2+HiveSparkFlink+GaussDB

华为云OBS+HMS+EMRonEC2+HiveSparkFlink+GaussDB

一句话定位“这是华为云版的 AWS 数据湖方案:OBS 当 S3 存数据,LakeFormation(HMS) 做统一元数据,MRS on ECS 托管 Spark/Flink/Hive,GaussDB(DWS) 当云数仓。”

层级 华为云组件 对应 AWS 组件 核心能力一句话
存储层 OBS Amazon S3 对象存储,支持标准/低频/归档/深度归档四级存储,单桶 EB 级,跨域复制,WORM,生命周期
元数据层 LakeFormation(HMS) AWS Glue Catalog 托管 Hive Metastore,统一 Schema;Catalog 固定名 hive,支持 IAM+桶策略双重权限
计算层 MRS on ECS EMR on EC2 一键部署 Hadoop/Spark/Flink 集群;Spot 混合、弹性伸缩;元数据直连 LakeFormation
数仓层 GaussDB(DWS) Amazon Redshift MPP 云数仓,支持列存、物化视图、结果缓存;可通过外表直接查询 OBS,亦支持 Flink 实时 sink

华为云的 OBS + HMS + EMR on ECS + Hive/Spark/Flink + GaussDB 组合,构成了一套完整的国产化大数据处理与分析架构,覆盖数据存储(数据湖)、元数据管理、分布式计算到数据仓库的全流程。这套架构与 AWS 的 “S3+Glue+EMR+Redshift” 逻辑相似,但基于华为云生态实现,尤其适合对国产化、数据安全合规有要求的企业。

核心组件及角色

1. 华为云 OBS(对象存储服务):数据湖底座

定位:对应 AWS S3,是整个架构的 “数据湖”,用于存储全量原始数据。
功能:
支持结构化(CSV、JSON)、半结构化(日志、XML)、非结构化数据(图片、视频)的无限存储,兼容标准 S3 API。
提供多存储类别(标准、低频访问、归档),可根据数据访问频率自动切换,平衡成本与性能。
具备高持久性(99.999999999%)和高可用性,通过多可用区冗余存储保障数据安全。
场景:接收来自业务系统、IoT 设备、日志服务等的原始数据,例如电商的用户行为日志、订单数据、商品图片等,统一存储在obs://my-datalake/raw-data/路径下。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值