数仓元数据管理之Atlas
1. 背景
- 在数仓开发中,由于数仓一般都会对数据做分层,ODS、DWD、DWS、ADS。每一层都会有众多数据库和数据库表,如果需要对这些数据库和表有一个较清晰梳理,仅仅使用文字,文档等工具管理是比较繁琐且低效的。
- 为什么需要对数仓中表和数据库做管理,因为当业务数据较多,业务变得复杂,并且数仓跟随业务迭代半年到一年之后,加上人员流动,文档不齐全等原因,数仓中表,数据库及其之间关系就会变得很难直观理解,很难梳理出清晰关系。这对于后续的数仓开发和维护是很不利的。
- 前期很多公司一般不会使用软件专门做这个数仓中数据库和数据表的管理,也就是数仓的元数据管理。但随着规模和业务复杂化之后,之前使用文档,表格等工具来管理,就变得很复杂且低效了。
- atlas这类数仓元数据管理框架应运而生
2. atlas简介
- 官网https://atlas.apache.org/#/

- atlas就是用来做元数据管理的的框架,可以看出本身是一个java web项目,归属于apache。
- 注意,这是apache项目,本身和apache生态下的hadoop全家桶兼容性很好,官方文档中可以看出
3. atlas编译
- 在官网下载源码
https://atlas.apache.org/#/Downloads

注意,不提供安装包,需要自行下载源码进行编译打包
- 将下载好的源码压缩包上传到linux,解压
tar -zxf apache-atlas-2.01.0-sources.tar.gz -C /opt/app/
注意,需要先安装maven,因为这是使用maven开发的java web工程。maven3.6.3版本即可
配置好maven的环境变量
注意国内需要

Apache Atlas是一款用于数仓元数据管理的框架,旨在解决复杂业务下数据库和表的梳理难题。本文介绍了Atlas的背景、功能,并详细阐述了如何编译2.1.0版本,包括配置Maven、修改依赖版本以及执行编译打包的步骤。通过内嵌或外置HBase和Solr,Atlas为大数据环境提供了有效的元数据解决方案。
最低0.47元/天 解锁文章
1949

被折叠的 条评论
为什么被折叠?



