94、数据湖:架构、应用与研究展望

数据湖:架构、应用与研究展望

1. 数据湖概述

数据湖概念近年来逐渐受到关注,它旨在以最小的前期投入,在与用户交互过程中完成更多工作,如在用户使用时创建模式、映射和索引等,这体现了“懒加载”和“即用即付”的理念。虽然很多人认为Hadoop能完全解决数据湖的实现问题,但实际上Hadoop虽擅长管理大量数据,却缺乏数据湖所需的详细元数据功能。

2. 数据湖架构

数据湖架构主要分为四层,各层功能不同,相互协作以实现数据的有效管理和使用。
1. 摄入层(Ingestion Layer)
- 功能 :负责将异构数据源的数据导入数据湖系统,强调以最小的努力摄入和加载数据,支持任何类型的数据。
- 操作步骤
- 利用初始数据源配置信息(DS Config),通过数据摄入和元数据提取组件尽可能自动从数据源提取数据和元数据。
- 元数据提取器需能检测半结构化数据(如JSON或XML)的模式。
- 提取的元数据由存储层的元数据存储库管理。
- 原始数据以原始格式“复制”到存储层的“原始数据存储”中,加载过程可采用懒加载方式,即仅在用户请求特定数据源的数据时进行。
- 数据质量控制 :数据治理和数据质量(DQ)管理很重要,DQ控制组件确保摄入的数据有最低质量。由于数据量大且多样,需自动检测DQ规则并模糊评估,数据剖析技术可帮助识别源数据模式。
2. 存储层(Storage Layer)
-

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值