数据湖(Data Lake)
各业务数据形成数据孤岛,需要大量资金维护管理,并且非结构化数据爆发和日益增长的海量数据分析需求,逐渐形成大数据结构,导致数据使用成本越来越高。
数据湖:
- 统一的元数据存储解决数据孤岛问题
- 保存原始数据,而非裁剪过后的数据

数据湖能解决的问题


演化:


湖格式: - ACID事务特性(因为很多时候并发读写的)
- 批流数据处理
- 多种工作负载/分析引擎
- 访问性能优化
- Schema验证与演化(无需重写历史数据)
- Upsert/Delete数据更新能力
- 多版本并存+时间旅行
数据湖构建方案
数据导入-数据存储-数据分析-数据应用

OSS:%99.9999999999(12个9)的持久性


方案一:开源体系云原生数据湖(OSS-HDFS+DLF+EMR)

场景二:实时数据湖方案

场景三:湖仓一体化方案(DLF+EMR+MC+DW)
DLF是桥梁,管理湖仓元数据,Dataworks做任务开发

数据存储层
数据设计持久性:不低于99.9999999999(12个9)
服务可用性(业务连续性):不低于99.995%

OSS存储类型

OSS-HDFS:
JindoFS服务化,下一代云原生数据湖存储产品

(可以在Bucket开通并授权访问OSS-HDFS服务)
(或者在已创建的Bucket开通并授权访问OSS-HDFS服务)
不可逆开通

OSS-HDFS快速入门

数据湖管理
Data Lake Formation数据湖构建

数据湖构建之后
入湖直接在数据源管理中新建数据源
也可以在入湖任务管理中添加多种类型的入湖任务

元数据操作:
数据目录是最上层实体,包含多个数据库。

数据探索
交互式查询服务
10000行+60分钟+600000字符+4G+200CU

主体-资源-访问方式

湖管理:
存储预览、生命周期管理、用量信息

数据湖计算层
EMR开源大数据平台:快速低成本分析和存储PB级别数据

EMR产品架构:

JindoData:
数据湖存储加速套件
比HDFS更高性能,免运维,数据持久性不急于12个9

EMR on ECS可视化、便捷高效的集群管理功能

最低0.47元/天 解锁文章
1631

被折叠的 条评论
为什么被折叠?



