数据湖集成设计原理深度解析
1. 数据湖类型概述
数据湖主要分为探索性湖和分析性湖:
- 探索性湖 :是将应用程序数据摄入 HDFS 中,进行少量清理、按需进行转换、格式化或合并(从多个源)后的数据集合。
- 分析性湖 :将数据摄入 HDFS 并将其提供给分析模型,用于进行预测分析或规范性分析等高级分析。这些数据(或部分数据)还可作为数据集市或企业数据仓库(EDW)的暂存区。
2. 数据仓库
很多时候,组织收集的数据不需要立即使用,可能只是为了未来使用而保留。比如各种应用程序的日志数据或审计数据,平时不需要立即使用,但当出现性能问题或安全漏洞时,就需要这些日志文件。根据组织拥有的应用程序数量或这些应用程序的关键程度,可能会有大量文件需要进行排序、关联和处理以获取信息。HDFS 为此类数据提供了良好的存储平台,且无需为这些数据附加模式,可根据需要快速提取子集进行故障排除。
此外,有时数据湖中会随着时间积累大量历史数据,但由于目前不需要,尚未定义分析方法。这些情况形成了数据仓库,它实际上是一个受管理的数据湖,定义了安全性、数据清理和数据剖析,但不进行任何分析。数据仓库的另一个常见作用是作为数据分发代理,在与其交互的不同系统之间进行数据分发。由于原始数据源的最新值会不断进入数据仓库,因此可以将这些值的选定子集分发给其他系统,这些子集也可通过实时接口按需访问,以提供最新的数据集。
数据仓库中的数据来自多个应用程序,无数据孤岛,用户可根据其在组织中的角色访问数据。此外,还对数据进行数据治理以及索引(或编目以便快速检索)。这里的数据已组织好,随时可进行分