数据湖模式:企业级数据集成与最佳实践
一、数据湖区域划分及类比
在构建数据湖时,基于特定业务或运营需求,可创建数据子集并存储在数据集市区域,以满足特定分析和报告需求。这一流程确保数据得到处理和存储,以支持其预期用途,并满足安全、隐私和合规要求,同时有助于保证数据在不同处理阶段的一致性和准确性。若数据不再用于当前活动,但出于合规或历史目的需要保留,还可创建存档区域进行长期存储。
这些区域及其名称并非固定不变,很多人会使用其他标签,也可能划分更多或更少的区域,但它们体现了架构良好的数据湖的基本要求。为更好理解数据湖各区域的工作方式,可类比金矿的开采、分配和销售过程:
1. 开采阶段(着陆区和原始区的数据摄取) :挖掘机将含金矿的泥土倒入卡车或传送带,如同数据湖在着陆区和原始区摄取原始数据。
2. 清洗阶段(策划或暂存区的数据质量处理) :泥土经过清洗过程,去除无用杂质,类比数据在策划或暂存区进行数据质量处理。
3. 提炼阶段(分析区的策划) :黄金被分离出来,制成锭或条,然后运输进行进一步加工,类似数据在分析区进行策划。
4. 应用阶段(数据集市区域) :金条最终被熔化成珠宝或工业零件,供个人用于不同目的,这与数据在数据集市区域的应用相对应。
二、AWS 中使用 Lake Formation 构建数据湖
(一)Lake Formation 简介
Lake Formation 是 AWS 提供的完全托管的数据湖服务,使数据工程师和分析师能够构建安全的
超级会员免费看
订阅专栏 解锁全文
1132

被折叠的 条评论
为什么被折叠?



