数据湖:架构、应用与研究展望
1. 数据湖概述
数据湖概念近年来逐渐受到关注,它旨在以最小的前期投入,在与用户交互过程中完成更多工作,如在用户使用时创建模式、映射和索引等,这体现了“懒加载”和“即用即付”的理念。虽然很多人认为Hadoop能完全解决数据湖的实现问题,但实际上Hadoop虽擅长管理大量数据,却缺乏数据湖所需的详细元数据功能。
2. 数据湖架构
数据湖架构主要分为四层,各层功能不同,相互协作以实现数据的有效管理和使用。
1. 摄入层(Ingestion Layer)
- 功能 :负责将异构数据源的数据导入数据湖系统,强调以最小的努力摄入和加载数据,支持任何类型的数据。
- 操作步骤 :
- 利用初始数据源配置信息(DS Config),通过数据摄入和元数据提取组件尽可能自动从数据源提取数据和元数据。
- 元数据提取器需能检测半结构化数据(如JSON或XML)的模式。
- 提取的元数据由存储层的元数据存储库管理。
- 原始数据以原始格式“复制”到存储层的“原始数据存储”中,加载过程可采用懒加载方式,即仅在用户请求特定数据源的数据时进行。
- 数据质量控制 :数据治理和数据质量(DQ)管理很重要,DQ控制组件确保摄入的数据有最低质量。由于数据量大且多样,需自动检测DQ规则并模糊评估,数据剖析技术可帮助识别源数据模式。
2. 存储层(Storage Layer)
-
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



