数仓元数据管理之Atlas安装配置及原理(2.1.0)

本文介绍了在数仓中使用Apache Atlas进行元数据管理的情况,包括安装配置非内嵌版本的步骤,如Zookeeper、Kafka、HBase和Solr的依赖。此外,还探讨了Atlas的主要功能——元数据注入和查询使用,以及其架构原理。

数仓元数据管理之Atlas安装配置(2.1.0)

1. 背景

  1. 当开发数仓,遇到数仓中表,数据库太多,无法很好理清楚这些表之间的关系,作用时,就需要使用元数据管理框架来处理了。
  2. atlas就是数仓中做元数据管理的框架

个人经历,
日活百万的app,ods层算上行为日志表和业务表大概40–50张,数据量比较多.
DW层,因为有DWD和DWS,增加了主题表,聚合表,各类需求初步聚合表,到了100多接近150张表,并且随着业务迭代,数量还在提升。加上需求变更,此前的旧表无法满足要求,新表不断创建,增加更快。
ADS层,这一层因为是直接对接需求,表数量也比较多,但好在一些数据可以直接从DW层拿,表的数量增加不算很快,100多张

2. 安装配置

注意,atlas的安装包可以选择不同模式,因为内部架构使用到了kafka来做元数据注入和消费,使用到了janus gragh图数据做数据读写(这个图数据库内部又使用了HBase和Solr做数据存储和搜索)。kafka和hbase又需要使用zookeeper。
一般企业开发中,都会选择让atlas使用外部安装好的这些框架,所以打包时需要选择不使用内嵌框架方式
以下文档,是安装非内嵌版本的指南,内嵌版本可以忽略。

上述也可以看出,开源软件之间的联系是和密切的,但同样的,数仓技术框架的版本适配和兼容一不小心也会让人进入地狱坑。

  1. 安装zookeeper(内嵌版不需要安装)
    安装过,只要自己能启动就行。注意zookeeper需要每台都启动。也可以自行编写启动和关闭脚本。具体看我博客
  • 启动命令
bin/zkServer.sh  start
  • 查看状态(注意,最好的状态查看,其实是实际用一下框架功能,linux中有时候显示进程启动后了,但是功能没好)
bin/zkServer.sh status

注意,涉及到分布式集群软件启动前,一定一定先检查一下集群节点之间的时间是否同步,时区是否正确

  1. 安装kafka(内嵌版不需要安装)
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值