Atlas 集成 Hive
Atlas 可以针对多个不同的数据源,统一采用 kafka 作为中间消息传递队列,使元数据源与服务端采用异步方式进行沟通,减少元数据采集对正常业务效率的影响,但是目前的 Atlas 版本监控 Hive 中数据操作比较完善,但是监控 Sqoo(目前只支持 hive import)、Spark 等支持不好。
我们可以使用 Atlas 监控 Hive 中的元数据,这时需要配置 Hive Hook(钩子),在 Hive 中做的任何操作,都会被钩子所感应到,并以事件的形式发布到 kafka,然后,Atlas 的 Ingest 模块会消费到 Kafka 中的消息,并解析生成相应的 Atlas 元数据写入底层的 Janus 图数据库来存储管理,其原理如下图示:

atlas 安装之前,hive 中已存在的表,钩子是不会自动感应并生成相关元数据的,可以通过 atlas 的工具脚本来对已存在的 hive 库或表进行元数据导入,步骤如下:
一、配置 hive-site.xml
在 node3 Hive 客户端 $HIVE_HOME/conf/hive-site.xml 中追加写入:
<!-- 配置hook 钩子类 --><property><name>hive.exec.post.hooks</name><value>org.apache.atlas.hive.hook.HiveHook</value></property>
复制代码

文章描述了如何使用Atlas来监控Hive的元数据,通过配置HiveHook将Hive的操作事件发送到Kafka,然后由Atlas的Ingest模块处理并存储到Janus图数据库。过程包括更新hive-site.xml,修改Hive-env.sh,复制必要配置文件和jar包,以及执行import-hive.sh脚本导入现有Hive元数据。
最低0.47元/天 解锁文章
2010

被折叠的 条评论
为什么被折叠?



