一、Atlas概述
1、Atlas入门
Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。同时可以配合ranger对某个元数据进行权限管理
元数据分类 | 支持对元数据进行分类管理,例如个人信息,敏感信息等 |
---|---|
元数据检索 | 可按照元数据类型、元数据分类进行检索,支持全文检索 |
血缘依赖 | 支持表到表和字段到字段之间的血缘依赖,便于进行问题回溯和影响分析等 |
例如表与表之间的血缘依赖
2、Atlas架构原理
二、Atlas安装
Atlas官网地址:https://atlas.apache.org/
文档查看地址:https://atlas.apache.org/2.1.0/index.html
下载地址:https://www.apache.org/dyn/closer.cgi/atlas/2.1.0/apache-atlas-2.1.0-sources.tar.gz
1、安装环境准备
Atlas安装分为:集成自带的HBase + Solr;集成外部的HBase + Solr。通常企业开发中选择集成外部的HBase + Solr,方便项目整体进行集成操作
服务名称 | 子服务 | 服务器hadoop102 | 服务器hadoop103 | 服务器hadoop104 |
---|---|---|---|---|
JDK | √ | √ | √ | |
Zookeeper | QuorumPeerMain | √ | √ | √ |
Kafka | Kafka | √ | √ | √ |
HBase | HMaster | √ | ||
HRegionServer | √ | √ | √ | |
Solr | Jar | √ | √ | √ |
Hive | Hive | √ | ||
Atlas | atlas | √ | ||
服务数总计 | 13 | 7 | 7 |
1.1 安装Solr-7.7.3
# 在每台节点创建系统用户solr,三台机器都创建
useradd solr
echo solr | passwd --stdin solr
# 解压solr-7.7.3.tgz到/opt/module目录,并改名为solr,102节点
wget https://archive.apache.org/dist/lucene/solr/7.7.3/solr-7.7.3.tgz
tar -zxvf solr-7.7.3.tgz -C /opt/module/
mv solr-7.7.3/ solr
# 修改solr目录的所有者为solr用户
chown -R solr:solr /opt/module/solr
# 修改solr配置文件
# 修改/opt/module/solr/bin/solr.in.sh文件中的以下属性
ZK_HOST="hadoop102:2181,hadoop103:2181,hadoop104:2181"
# 分发solr
xsync /opt/module/solr
# 启动solr集群
# 启动Zookeeper集群
zk.sh start
# 启动solr集群,出于安全考虑,不推荐使用root用户启动solr,此处使用solr用户,在所有节点执行以下命令启动solr集群
# 三台机器依次执行
sudo -i -u solr /opt/module/solr/bin/solr start
# 出现 Happy Searching! 字样表明启动成功。
# 说明:若出现警告内容是:solr推荐系统允许的最大进程数和最大打开文件数分别为65000和65000,而系统默认值低于推荐值。如需修改可参考以下步骤,修改完需要重启方可生效,此处可暂不修改。
# 修改打开文件数限制
# 修改/etc/security/limits.conf文件,增加以下内容
# * soft nofile 65000
# * hard nofile 65000
# 修改进程数限制,修改/etc/security/limits.d/20-nproc.conf文件
# * soft nproc 65000
# 最后重启
# 默认端口为8983,可指定三台节点中的任意一台IP,http://hadoop102:8983
# 提示:UI界面出现Cloud菜单栏时,Solr的Cloud模式才算部署成功
1.2 Atlas2.1.0安装
# 文档:https://atlas.apache.org/#/BuildInstallation
# 可执行包涉及编译
# 把apache-atlas-2.1.0-server.tar.gz 上传到hadoop102的/opt/software目录下
tar -zxvf apache-atlas-2.1.0-server.tar.gz -C /opt/module/
mv /opt/module/apache-atlas-2.1.0 /opt/module/atlas
# # 资源获取:https://download.youkuaiyun.com/download/lemon_TT/87961006
2、Atlas配置
2.1 Atlas集成Hbase
# 修改/opt/module/atlas/conf/atlas-application.properties配置文件中的以下参数
atlas.graph.storage.hostname=hadoop102:2181,hadoop103:2181,hadoop104:2181
# 修改/opt/module/atlas/conf/atlas-env.sh配置文件
export HBASE_CONF_DIR=/opt/module/hbase/conf
2.2 Atlas集成Solr
# 修改/opt/module/atlas/conf/atlas-application.properties配置文件中的以下参数
atlas.graph.index.search.backend=solr
atlas.graph.index.search.solr.mode=cloud
atlas.graph.index.search.solr.zookeeper-url=hadoop102:2181,hadoop103:2181,hadoop104:2181
# 创建solr collection
sudo -i -u solr /opt/module/solr/bin/solr create -c vertex_index -d /opt/module/atlas/conf/solr -shards 3 -replicationFactor 2
sudo -i -u solr /opt/module/solr/bin/solr create -c edge_index