数据仓库体系
理论知识
1、了解数据仓库的发展历史
2、数据仓库建模理论

分层架构
离线数仓
基于上面的思维导图,我们展开相关知识学习。
实时数仓
针对实时数仓的技术架构,目前业界有好几种实现方式,上面只是介绍了kappa和lambda架构。具体选择那种技术架构,需要结合公司的规模,技术团队人员配置等因素。
元数据管理
在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据。
工具
Hive数据数据仓库元数据管理工具,Atlas。Atlas是一组可扩展的核心基础治理服务,使企业能够有效,高效地满足Hadoop中的合规性要求,并能与整个企业数据生态系统集成;Apache Atlas为组织提供了开放的元数据管理和治理功能,以建立数据资产的目录,对这些资产进行分类和治理,并为IT团队、数据分析团队提供围绕这些数据资产的协作功能。
Altas的技术架构图:
如果大家想要获取上述的思维导图文件,记得关注。我私发出来。
本文探讨了数据仓库的发展历程,包括建模理论和分层架构,如离线数仓与实时数仓。提到了Kappa和Lambda架构在实时数仓中的应用,并强调选择架构需考虑公司规模和技术团队。元数据管理在数据仓库中的重要性被突出,特别是ApacheAtlas作为元数据管理和治理工具的角色,用于数据资产的目录、分类和协作。
1万+

被折叠的 条评论
为什么被折叠?



