文章目录
01、概述
- Atlas:提供元数据管理和治理的服务
企业可以对 自己Hadoop生态的数据资产 构建目录,进行分类和治理 - 主要功能:元数据分类、元数据检索、血缘依赖(表到表、字段到字段)
- 官网:https://atlas.apache.org
架构图
- Core
核心组件- Type System
允许 用户 定义和管理 元数据 类型和实体 的组件
所有由Atlas管理的开箱即用的元数据对象(如:Hive表、HIVE字段)都是用类型建模并表示为实体 - Graph Engine
在内部,使用 图模型 来 持久化 元数据对象,并为元数据对象创建的索引 来 加速搜索
索引持久化到Solr - JanusGraph
存储元数据对象
元数据持久化到HBase - Ingest / Export
Ingest组件:将元数据添加到Atlas
Export组件:将Atlas检测到的元数据更改公开为事件
- Type System
- Integration
用户可以使用两种方法管理Atlas中的元数据- API
通过REST API向用户公开,允许对类型和实体的增删查改 - Messaging
基于Kafka的消息传递接口
Atlas使用Kafka作为通知服务器,用于hooks和元数据通知事件的下游消费者之间的通信
事件由hooks和Atlas编写到不同的Kafka主题
- API
- Metadata sources
支持的元数据来源有:HBase、Hive、Sqoop、Storm、Kafka - Apps
- Admin UI
一个基于web的应用程序,提供搜索界面和SQL之类的查询语言 - Ranger Tag Based Policies
Apache Ranger是Hadoop生态系统的高级安全管理解决方案,广泛集成了各种Hadoop组件
通过Range与Atlas集成,允许安全管理员定义元数据驱动的安全策略,以实现有效的治理
- Admin UI
Atlas安装架构图
02、集群规划、版本、环境变量
-
Atlas自带的HBase、Solr等,本文是集成外部的,预装JDK、Zookeeper、Kafka、HBase、Hive
-
集群规划
https://yellow520.blog.youkuaiyun.com/article/details/115536550 -
环境变量
https://blog.youkuaiyun.com/Yellow_python/article/details/112692486
03、Solr集群部署
- Apache SolrTM是 建立在Apache LuceneTM之上的 开源的企业搜索平台
- 在此处,Solr的作用是:加快元数据的搜索
- 下载地址:https://solr.apache.org/
在每个节点创建名为Solr的系统用户
useradd solr
echo solr | passwd --stdin solr
解压、修改户主
tar -zxvf solr-7.7.3.tgz
mv solr-7.7.3 solr
chown -R solr:solr solr
mv solr $B_HOME/solr
修改配置文件
vim $B_HOME/solr/bin/solr.in.sh