元数据管理Atlas

本文详细介绍了ApacheAtlas2.1.0的安装过程,包括环境准备、集成HBase、Solr和Kafka,配置项和启动步骤。重点讲解了使用Atlas进行Hive元数据管理和血缘依赖分析,以及如何进行源码编译和内存优化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、Atlas概述

1、Atlas入门

Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。同时可以配合ranger对某个元数据进行权限管理

元数据分类 支持对元数据进行分类管理,例如个人信息,敏感信息等
元数据检索 可按照元数据类型、元数据分类进行检索,支持全文检索
血缘依赖 支持表到表和字段到字段之间的血缘依赖,便于进行问题回溯和影响分析等

例如表与表之间的血缘依赖

2、Atlas架构原理

二、Atlas安装

Atlas官网地址:https://atlas.apache.org/
文档查看地址:https://atlas.apache.org/2.1.0/index.html
下载地址:https://www.apache.org/dyn/closer.cgi/atlas/2.1.0/apache-atlas-2.1.0-sources.tar.gz

1、安装环境准备

Atlas安装分为:集成自带的HBase + Solr;集成外部的HBase + Solr。通常企业开发中选择集成外部的HBase + Solr,方便项目整体进行集成操作

服务名称 子服务 服务器hadoop102 服务器hadoop103 服务器hadoop104
JDK
Zookeeper QuorumPeerMain
Kafka Kafka
HBase HMaster
HRegionServer
Solr Jar
Hive Hive
Atlas atlas
服务数总计 13 7 7

1.1 安装Solr-7.7.3

# 在每台节点创建系统用户solr,三台机器都创建
useradd solr
echo solr | passwd --stdin solr

# 解压solr-7.7.3.tgz到/opt/module目录,并改名为solr,102节点
wget https://archive.apache.org/dist/lucene/solr/7.7.3/solr-7.7.3.tgz
tar -zxvf solr-7.7.3.tgz -C /opt/module/
mv solr-7.7.3/ solr

# 修改solr目录的所有者为solr用户
chown -R solr:solr /opt/module/solr

# 修改solr配置文件
# 修改/opt/module/solr/bin/solr.in.sh文件中的以下属性
ZK_HOST="hadoop102:2181,hadoop103:2181,hadoop104:2181"

# 分发solr
xsync /opt/module/solr

# 启动solr集群
# 启动Zookeeper集群
zk.sh start
# 启动solr集群,出于安全考虑,不推荐使用root用户启动solr,此处使用solr用户,在所有节点执行以下命令启动solr集群
# 三台机器依次执行
sudo -i -u solr /opt/module/solr/bin/solr start
# 出现 Happy Searching! 字样表明启动成功。
# 说明:若出现警告内容是:solr推荐系统允许的最大进程数和最大打开文件数分别为65000和65000,而系统默认值低于推荐值。如需修改可参考以下步骤,修改完需要重启方可生效,此处可暂不修改。
# 修改打开文件数限制
# 修改/etc/security/limits.conf文件,增加以下内容
# * soft nofile 65000
# * hard nofile 65000
# 修改进程数限制,修改/etc/security/limits.d/20-nproc.conf文件
# *          soft    nproc     65000
# 最后重启

# 默认端口为8983,可指定三台节点中的任意一台IP,http://hadoop102:8983 
# 提示:UI界面出现Cloud菜单栏时,Solr的Cloud模式才算部署成功

1.2 Atlas2.1.0安装

# 文档:https://atlas.apache.org/#/BuildInstallation
# 可执行包涉及编译
# 把apache-atlas-2.1.0-server.tar.gz 上传到hadoop102的/opt/software目录下
tar -zxvf apache-atlas-2.1.0-server.tar.gz -C /opt/module/
mv /opt/module/apache-atlas-2.1.0 /opt/module/atlas
# # 资源获取:https://download.youkuaiyun.com/download/lemon_TT/87961006

2、Atlas配置

2.1 Atlas集成Hbase

# 修改/opt/module/atlas/conf/atlas-application.properties配置文件中的以下参数
atlas.graph.storage.hostname=hadoop102:2181,hadoop103:2181,hadoop104:2181
# 修改/opt/module/atlas/conf/atlas-env.sh配置文件
export HBASE_CONF_DIR=/opt/module/hbase/conf

2.2 Atlas集成Solr

# 修改/opt/module/atlas/conf/atlas-application.properties配置文件中的以下参数
atlas.graph.index.search.backend=solr
atlas.graph.index.search.solr.mode=cloud
atlas.graph.index.search.solr.zookeeper-url=hadoop102:2181,hadoop103:2181,hadoop104:2181
# 创建solr collection
sudo -i -u solr /opt/module/solr/bin/solr create  -c vertex_index -d /opt/module/atlas/conf/solr -shards 3 -replicationFactor 2
sudo -i -u solr /opt/module/solr/bin/solr create -c edge_index 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值