阿里云ACP-数据湖和机器学习

数据湖(Data Lake)

各业务数据形成数据孤岛,需要大量资金维护管理,并且非结构化数据爆发和日益增长的海量数据分析需求,逐渐形成大数据结构,导致数据使用成本越来越高。
数据湖:

  • 统一的元数据存储解决数据孤岛问题
  • 保存原始数据,而非裁剪过后的数据
    数据湖
    数据湖能解决的问题
    数据湖
    对比
    演化:
    演化
    其他开源湖
    湖格式:
  • ACID事务特性(因为很多时候并发读写的)
  • 批流数据处理
  • 多种工作负载/分析引擎
  • 访问性能优化
  • Schema验证与演化(无需重写历史数据)
  • Upsert/Delete数据更新能力
  • 多版本并存+时间旅行

数据湖构建方案

数据导入-数据存储-数据分析-数据应用
构建流程
OSS:%99.9999999999(12个9)的持久性
数据湖架构
方案
方案一:开源体系云原生数据湖(OSS-HDFS+DLF+EMR)
开源方案
场景二:实时数据湖方案
实时数据湖
场景三:湖仓一体化方案(DLF+EMR+MC+DW)
DLF是桥梁,管理湖仓元数据,Dataworks做任务开发
湖仓一体

数据存储层

数据设计持久性:不低于99.9999999999(12个9)
服务可用性(业务连续性):不低于99.995%

OSS
OSS存储类型

存储类型
OSS-HDFS:
JindoFS服务化,下一代云原生数据湖存储产品
oSS-HDFS
(可以在Bucket开通并授权访问OSS-HDFS服务)
(或者在已创建的Bucket开通并授权访问OSS-HDFS服务)
不可逆开通
开通
OSS-HDFS快速入门
OSS-HDFS连通

数据湖管理

Data Lake Formation数据湖构建
DLF
数据湖构建之后
入湖直接在数据源管理中新建数据源
也可以在入湖任务管理中添加多种类型的入湖任务
数据入湖

元数据操作:
数据目录是最上层实体,包含多个数据库。

元数据操作
数据探索
交互式查询服务
10000行+60分钟+600000字符+4G+200CU
数据探索
主体-资源-访问方式
数据权限

湖管理:
存储预览、生命周期管理、用量信息
湖管理

数据湖计算层

EMR开源大数据平台:快速低成本分析和存储PB级别数据

EMR
EMR产品架构:
产品架构
JindoData:
数据湖存储加速套件
比HDFS更高性能,免运维,数据持久性不急于12个9
JinfoData
EMR on ECS可视化、便捷高效的集群管理功能

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

厨 神

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值