数仓元数据管理之Atlas安装配置(2.1.0)
1. 背景
- 当开发数仓,遇到数仓中表,数据库太多,无法很好理清楚这些表之间的关系,作用时,就需要使用元数据管理框架来处理了。
- atlas就是数仓中做元数据管理的框架
个人经历,
日活百万的app,ods层算上行为日志表和业务表大概40–50张,数据量比较多.
DW层,因为有DWD和DWS,增加了主题表,聚合表,各类需求初步聚合表,到了100多接近150张表,并且随着业务迭代,数量还在提升。加上需求变更,此前的旧表无法满足要求,新表不断创建,增加更快。
ADS层,这一层因为是直接对接需求,表数量也比较多,但好在一些数据可以直接从DW层拿,表的数量增加不算很快,100多张
2. 安装配置
注意,atlas的安装包可以选择不同模式,因为内部架构使用到了kafka来做元数据注入和消费,使用到了janus gragh图数据做数据读写(这个图数据库内部又使用了HBase和Solr做数据存储和搜索)。kafka和hbase又需要使用zookeeper。
一般企业开发中,都会选择让atlas使用外部安装好的这些框架,所以打包时需要选择不使用内嵌框架方式
以下文档,是安装非内嵌版本的指南,内嵌版本可以忽略。
上述也可以看出,开源软件之间的联系是和密切的,但同样的,数仓技术框架的版本适配和兼容一不小心也会让人进入地狱坑。
- 安装zookeeper(内嵌版不需要安装)
安装过,只要自己能启动就行。注意zookeeper需要每台都启动。也可以自行编写启动和关闭脚本。具体看我博客
- 启动命令
bin/zkServer.sh start
- 查看状态(注意,最好的状态查看,其实是实际用一下框架功能,linux中有时候显示进程启动后了,但是功能没好)
bin/zkServer.sh status
注意,涉及到分布式集群软件启动前,一定一定先检查一下集群节点之间的时间是否同步,时区是否正确
- 安装kafka(内嵌版不需要安装)

本文介绍了在数仓中使用Apache Atlas进行元数据管理的情况,包括安装配置非内嵌版本的步骤,如Zookeeper、Kafka、HBase和Solr的依赖。此外,还探讨了Atlas的主要功能——元数据注入和查询使用,以及其架构原理。
最低0.47元/天 解锁文章
4617

被折叠的 条评论
为什么被折叠?



