数据治理（八）：Atlas 集成 Hive

最新推荐文章于 2024-11-21 14:37:58 发布

原创

最新推荐文章于 2024-11-21 14:37:58 发布 · 400 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hive #大数据

文章描述了如何使用Atlas来监控Hive的元数据，通过配置HiveHook将Hive的操作事件发送到Kafka，然后由Atlas的Ingest模块处理并存储到Janus图数据库。过程包括更新hive-site.xml，修改Hive-env.sh，复制必要配置文件和jar包，以及执行import-hive.sh脚本导入现有Hive元数据。

Atlas 集成 Hive

Atlas 可以针对多个不同的数据源，统一采用 kafka 作为中间消息传递队列，使元数据源与服务端采用异步方式进行沟通，减少元数据采集对正常业务效率的影响，但是目前的 Atlas 版本监控 Hive 中数据操作比较完善，但是监控 Sqoo（目前只支持 hive import）、Spark 等支持不好。

我们可以使用 Atlas 监控 Hive 中的元数据，这时需要配置 Hive Hook(钩子)，在 Hive 中做的任何操作，都会被钩子所感应到，并以事件的形式发布到 kafka，然后，Atlas 的 Ingest 模块会消费到 Kafka 中的消息，并解析生成相应的 Atlas 元数据写入底层的 Janus 图数据库来存储管理,其原理如下图示：

atlas 安装之前，hive 中已存在的表，钩子是不会自动感应并生成相关元数据的，可以通过 atlas 的工具脚本来对已存在的 hive 库或表进行元数据导入，步骤如下：

一、配置 hive-site.xml

在 node3 Hive 客户端 $HIVE_HOME/conf/hive-site.xml 中追加写入：

<!-- 配置hook 钩子类 --><property>    <name>hive.exec.post.hooks</name>    <value>org.apache.atlas.hive.hook.HiveHook</value></property>

复制代码

二、

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wrr-cat

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

数据治理（八）：Atlas集成Hive

Lansonli（蓝深李）的博客

04-10

2010

目录 Atlas集成Hive 一、配置hive-site.xml 二、修改Hive-env.sh 三、复制$ATLAS_HOME/conf/atlas-application.properties文件到$HIVE_HOME/conf下，并追加内容四、复制导入Hive元数据必须的jar包五、执行同步Hive 元数据脚本六、以上导入元数据成功后，可以在Atlas页面中查看七、在Hive中创建数据表，查看是否能被Atlas监控八、刷新Atlas页面，可以看到数据被同步 Atla.

Spark与Apache Atlas集成：数据治理最佳实践

最新发布

AI天才研究院

04-21

985

随着企业数据量呈指数级增长，数据治理（Data Governance）已从“可选能力”变为“核心竞争力”。如何清晰掌握数据从产生到消亡的全生命周期，确保数据可追溯、可审计、可合规。Apache Spark作为最广泛使用的大数据处理引擎（覆盖ETL、实时计算、机器学习等场景），其运行过程中产生的元数据（如任务执行计划、输入输出表、字段转换逻辑）是数据治理的“金矿”。而Apache Atlas作为专业的元数据治理平台，能够将离散的元数据整合为可查询、可分析的资产图谱。本文聚焦Spark与Atlas的集成技术。

参与评论您还未登录，请先登录后发表或查看评论

apache Atlas 1.2.0 搭建以及hive的集成

weixin_44445168的博客

12-05

1441

apache Atlas 1.2.0 搭建以及hive的集成简介 ps:(官网摘抄) Atlas 是一组可扩展且可扩展的核心基础治理服务，使企业能够高效、高效地满足 Hadoop 内的合规性要求，并允许与整个企业数据生态系统集成。为组织提供开放的元数据管理和治理功能，以构建其数据资产目录，对这些资产进行分类和治理，并为数据科学家、分析师和数据治理团队提供围绕这些数据资产的协作功能。特点: 元数据类型和实例各种 Hadoop 和非 Hadoop 元数据的预定义类型能够为要管理的元数据定义新类型类

Atlas集成外部组件—集成Hive、HBase、Kafka

m0_67392182的博客

04-09

921

Atlas只提供一个批量导入元数据到Atlas的工具，原理是通过kafka.utils.ZkUtils获取Topic的元数据信息并写入Atlas。很多人在刚接触这个行业的时候或者是在遇到瓶颈期的时候，总会遇到一些问题，比如学了一段时间感觉没有方向感，不知道该从那里入手去学习。注意：一定要进入atlas用户，因为Atlas的Linux管理账户是atlas，其他账户下可能会报没有权限的错误。Atlas没有提供Kafka Hook，所以不能实时采集Kafka的元数据，需要定期调度批量导入元数据的脚本。

Atlas部署并集成HIVE

ArYe

01-30

4005

Atlas安装分为：集成自带的HBase+Solr 和集成外部的HBase+Solr，本文是集成外部的安装Solr前需要装好JDK、Zookeeper、Kafka、HBase、Hive 集群规划安装Solr Apache SolrTM是建立在Apache LuceneTM之上的开源的企业搜索平台在此处，Solr的作用是：加快元数据的搜索 ...

Atlas 2.1.0 实践（3）—— Atlas集成HIve

大数据流动

01-25

1876

Atlas集成Hive在安装好Atlas以后，如果想要使用起来，还要让Atlas与其他组件建立联系。其中最常用的就是Hive。通过Atlas的架构，只要配置好Hive Hook ，那么每...

数据治理三-Atlas与Hive数据集成

b379685397的博客

02-04

2798

一、安装环境 JDK 1.8 二、安装Hadoop 1、下载hadoop http://mirror.bit.edu.cn/apache/hadoop/选择合适的版本下载hadoop wgethttp://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz 执行进行解压，为了方便使用吗，mv进行修改名称 tar -xzvfhadoop-3.3.0.tar.gz mvhado...

数据治理三-Atlas与Hive数据集成，2024年最新linux内核架构与底层原理

2401_87555310的博客

11-21

662

一、安装环境======JDK 1.8二、安装Hadoop==========

Atlas数据治理

我的笔记

03-15

816

大数据自学笔记——Atlas数据治理学习笔记

atlas数据治理思维导图

01-01

元数据管理

Ranger和Atlas进行数据治理.docx

02-26

Ranger和Atlas进行数据治理，对Yarn、HDFS、Hbase、Hive、Kafka的权限控制，最全的文档整理。

大数据元数据开源解决方案apache atlas

11-01

大数据元数据开源解决方案apache atlas，提供数据治理，元数据管理等功能

Atlas插件框架集成总结

02-24

简单记录当需要手动分配bunlde的packageID时的方法原来以为插件的packageID是根据插件的引入顺序决定的，所以为了不出现些奇怪的问题，一再叮嘱不要改变插件引入的顺序，新的插件也只能放在后面(主要是没找到手动分配id的方式，文档里有写但是并不清楚)。但是看源码后比较清晰了。其实并没有严格按手动还是自动分配来区分，因为如果你只给某个插件分配id也是可以的。没有手动分配的插件就会自动给一个，当然不会重复就是了。而且自动分配的时候会根据插件的唯一标识(groupid+artifactId)做一个排序，所以和插件引用的顺序也无关。总的来说自定义id有三种方式，一种是在插件的module里

spark-atlas-connector:一个Spark Atlas连接器，用于跟踪Apache Atlas中的数据沿袭

05-26

Spark Atlas连接器用于跟踪Spark SQL / DataFrame转换并将元数据更改推送到Apache Atlas的连接器。此连接器支持跟踪： SQL DDL，例如“创建/删除/更改数据库”，“创建/删除/更改表”。 SQL DML，例如“ CREATE TABLE tbl AS SELECT”，“ INSERT INTO ...”，“ LOAD DATA [LOCAL] INPATH”，“ INSERT OVERWRITE [LOCAL] DIRECTORY”等。具有输入和输出的DataFrame转换机器学习管道。该连接器将与Hive，HDFS等其他系统关联，以跟踪Atlas中数据的生命周期。如何建造要使用此连接器，您将需要最新版本的Spark（Spark 2.3+），因为大多数功能仅在Spark 2.3.0+中存在。要构建此项目，请执行： mv

大数据之数据治理架构 —— Atlas

JIE的博客 --- moon_coder

04-07

4578

数据治理是一种组织和管理数据资源的过程，旨在确保数据的质量、安全性、可靠性、可访问性和合规性，以支持企业决策和运营需求。数据治理涉及制定和执行数据管理策略、规则和流程，包括数据分类、数据质量管理、数据安全和隐私保护、数据共享和访问控制、数据存储和备份等方面。数据治理通常需要跨部门合作，包括IT、业务和法务等部门，以确保数据资源在整个企业中的有效管理和利用。数据治理对于企业决策的准确性和效率至关重要，可以提高数据价值、减少风险和遵守法规要求。

元数据管理-Atlas的介绍和使用(集成Hive、Solr、Kafka、Kerberos)

迷雾总会解

06-15

3783

概述介绍架构发展架构原理类型系统介绍类型hive_table类型介绍DataSet类型定义Asset类型定义Referenceable类型定义Process类型定义Entities(实体)Attributes(属性)安装安装环境准备安装Solr-7.7.3安装Atlas2.1.0Atlas配置Atlas集成HbaseAtlas集成SolrAtlas集成KafkaAtlas Server配置Kerberos相关配置Atlas集成HiveAtlas启动Atlas使用Hive元数据初次导入Hive元数据增量同步。

【数据治理】Atlas-实现数据治理的利器

wnm23的专栏

04-20

922

Atlas是一款强大的开源数据治理和元数据管理工具，旨在帮助组织管理其数据资产、了解数据血缘关系，并确保数据的合规性和安全性。本篇博客将深入探讨Atlas组件的各方面内容，包括应用架构、业务架构、数据架构、功能架构、技术架构等，并重点介绍其与大数据生态系统中Hadoop、Hive、HBase等组件的集成。血缘关系的采集是Atlas的核心功能之一，通过元数据管理和数据血缘追踪，用户可以了解数据的来源、传输路径和影响范围。Atlas的数据架构主要包括元数据存储和索引，用于存储和检索各种数据资产的元数据信息。

数据治理（十）：Atlas案例演示

Lansonli（蓝深李）的博客

04-13

2219

目录 Atlas案例演示一、创建所有Hive表二、编写处理业务Shell脚本 1、ODS层数据表获取EDS层 TW_MAC_BASEINFO_D 机器的基本信息表脚本附件： 2、ODS层数据表获取EDS层 TW_USR_BASEINFO_D 活跃用户信息数据表脚本附件： 3、ODS层数据表获取EDS层 TW_CNSM_BRIEF_D 消费退款订单流水日增量表脚本附件： 4、EDS-DWD层数据获取EDS-DWS层 TW_MAC_STAT_D 机器日营收情况统计表脚本附件： 5、EDS-.

Apache Atlas 0.8.4安装与Hive、HBase元数据集成指南

"本文档详细介绍了Apache Atlas的元数据管理功能和安装过程，适用于hadoop2.8.5，hive1.2.1，hbase1.3.1的环境。文档涵盖了元数据概述，Atlas的基本介绍，其架构与原理，特征，安装步骤，以及如何导入Hive和HBase的...