17、数据湖集成设计原理深度解析

数据湖集成设计原理深度解析

1. 数据湖类型概述

数据湖主要分为探索性湖和分析性湖:
- 探索性湖 :是将应用程序数据摄入 HDFS 中,进行少量清理、按需进行转换、格式化或合并(从多个源)后的数据集合。
- 分析性湖 :将数据摄入 HDFS 并将其提供给分析模型,用于进行预测分析或规范性分析等高级分析。这些数据(或部分数据)还可作为数据集市或企业数据仓库(EDW)的暂存区。

2. 数据仓库

很多时候,组织收集的数据不需要立即使用,可能只是为了未来使用而保留。比如各种应用程序的日志数据或审计数据,平时不需要立即使用,但当出现性能问题或安全漏洞时,就需要这些日志文件。根据组织拥有的应用程序数量或这些应用程序的关键程度,可能会有大量文件需要进行排序、关联和处理以获取信息。HDFS 为此类数据提供了良好的存储平台,且无需为这些数据附加模式,可根据需要快速提取子集进行故障排除。

此外,有时数据湖中会随着时间积累大量历史数据,但由于目前不需要,尚未定义分析方法。这些情况形成了数据仓库,它实际上是一个受管理的数据湖,定义了安全性、数据清理和数据剖析,但不进行任何分析。数据仓库的另一个常见作用是作为数据分发代理,在与其交互的不同系统之间进行数据分发。由于原始数据源的最新值会不断进入数据仓库,因此可以将这些值的选定子集分发给其他系统,这些子集也可通过实时接口按需访问,以提供最新的数据集。

数据仓库中的数据来自多个应用程序,无数据孤岛,用户可根据其在组织中的角色访问数据。此外,还对数据进行数据治理以及索引(或编目以便快速检索)。这里的数据已组织好,随时可进行分

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值