元数据管理平台(OpenMetaData)--元数据拾取能力演示

🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。
✨杭州奥零数据科技官网:http://www.aolingdata.com
✨Github项目:https://github.com/alldatacenter/alldata
✨Gitee项目:https://gitee.com/alldatacenter/alldata
✨AllData官方手册:https://www.yuque.com/aolingdata/product
✨AllData正式环境:http://43.138.156.44:5173/ui_moat

摘要:本文档介绍如何在Linux服务器上部署Airflow服务,与openmetadata进行集成,后在openmetadata系统中实现对Airflow工作流数据的拾取以及数据库元数据的拾取。
• openmetadata:1.6.0
• airflow:2.9.1
在这里插入图片描述
元数据管理平台基于开源项目OpenMetaData建设
元数据管理平台OpenMetaData通过全面的元数据采集、强大的存储与检索、深度的分析与治理、灵活的应用与共享、高扩展性与定制化以及直观的用户体验,为企业提供了一站式的元数据管理解决方案。

  • OpenMetaData开源项目:https://github.com/open-metadata/OpenMetadata
  • 更多教程可以参考官方教程文档:https://docs.open-metadata.org/latest

1、环境安装

  • Miniconda:安装不同版本的python 虚拟环境的工具
  • JDK:17

1.1 Minicoonda

1.1.1 安装

  • 下载地址:https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
  • 服务器上创建 Miniconda 安装包存放目录并切换到该目录

在这里插入图片描述

  • 在本地主机下载好安装包后上传至服务器,可通过以下命令上传

在这里插入图片描述

  • 在服务器 /opt/software 目录下执行以下命令开始安装,按照提示操作,直到安装完成

在这里插入图片描述

  • 在安装过程中,出现以下提示时,可以自行指定安装路径,也可以使用默认路径

在这里插入图片描述

  • 出现以下字样,即为安装完成

在这里插入图片描述

  • 加载环境配置文件,使刚刚安装 Miniconda 配置生效

在这里插入图片描述

  • Miniconda 安装完成后,每次打开终端都会激活其默认的 base 环境,我们可通过以下命令,禁止激活默认 base 环境

在这里插入图片描述

  • 配置 conda 国内镜像

在这里插入图片描述
1.1.2 查看环境
在这里插入图片描述
1.1.3 创建虚拟环境
在这里插入图片描述

1.1.4 删除虚拟环境
在这里插入图片描述

1.1.5 激活虚拟环境
在这里插入图片描述

1.1.6 退出虚拟环境
在这里插入图片描述

1.2 JDK

  • 下载地址:https://www.oracle.com/java/technologies/javase/jdk17-0-13-later-archive-downloads.html
  • 找到以下软件包进行下载即可
    在这里插入图片描述
  • 下载完成后,上传到我们服务器并解压即可

2、安装AirfIow

2.1 设置环境变量
在这里插入图片描述

  • AIRFLOW_HOME:Airflow 配置文件、日志等信息存放目录
  • AIRFLOW__OPENMETADATA_AIRFLOW_APIS__DAG_GENERATED_CONFIGS:openmetadata提取任务配置文件生成目录

2.2 创建虚拟环境

  • 执行以下命令,按照提示操作

在这里插入图片描述

  • 激活虚拟环境

在这里插入图片描述

2.3 安装
执行以下命令开始安装
在这里插入图片描述

安装完成后,可执行以下命令,查看安装的版本
在这里插入图片描述

查看airflow相关配置信息
在这里插入图片描述
2.4 修改配置
在这里插入图片描述
2.4.1 airflow webserver端口
在这里插入图片描述

  • 用户可以修改为其他端口,也可以使用默认配置

2.4.2 executor
在这里插入图片描述

执行器,官方建议设置为 LocalExecutor
在这里插入图片描述

2.4.3 数据库
在这里插入图片描述

默认使用本机的sqlite存储,官方建议修改为 mysql 数据库
在这里插入图片描述在这里插入图片描述
2.4.4 auth_backends
在这里插入图片描述
要让openmetadata支持airflow元数据拾取需要修改该配置为
在这里插入图片描述
2.5 初始化数据库
执行以下命令进行数据库初始化
在这里插入图片描述

修改系统登录密码,这里我们修改密码为 alldata2.6 安装插件安装此插件,即可支持openmetadata集成airflow元数据拾取
在这里插入图片描述

2.7 启动airflow
在这里插入图片描述

启动完成后,执行以下命令验证插件是否安装成功
在这里插入图片描述

  • 32g004是我们的服务器域名
  • 8100是我们的airflow webserver端口地址
  • 出现如下信息表示安装成功

在这里插入图片描述

3、airflow元数据拾取

3.1 进入openmetadata页面
在这里插入图片描述

3.2 点击服务
点击后,进入以下页面
在这里插入图片描述

3.3 点击工作流
点击后,进入以下页面
在这里插入图片描述

3.4 点击添加新服务

  • 点击后,进入以下页面
  • 选择 Airflow

在这里插入图片描述

3.5 点击下一步

  • 点击后,进入以下页面
  • 编辑服务名(必填)
  • 以及描述(可选)

在这里插入图片描述

3.6 点击下一步
点击后,进入以下页面
在这里插入图片描述

  • Host And Port:Airflow的服务地址,输入以下内容

在这里插入图片描述
Metadata Database Connection 修改为 BackendConnection,如下图
在这里插入图片描述
点击测试连接,成功后如下图
在这里插入图片描述

点击 Save,服务创建成功
在这里插入图片描述

3.7 点击添加拾取
点击后,进入以下页面
以下配置默认即可
在这里插入图片描述在这里插入图片描述

3.8 点击下一步
点击后,进入以下页面
这里我们选第一个选项无,拾取任务我们手动点击运行
在这里插入图片描述

3.9 点击添加部署
点击后,进入以下页面
在这里插入图片描述

3.10 点击查看服务
点击后,进入以下页面
此时,已完成一次工作流拾取任务,可以看到工作流信息
在这里插入图片描述

3.11 点击提取
点击后,进入以下页面
可以看到我们的拾取任务的状态以及执行日志
在这里插入图片描述

3.12 登录Airflow

在这里插入图片描述

4、mysql元数据拾取

4.1 进入openmetadata页面
在这里插入图片描述

4.2 点击服务
点击后,进入以下页面
在这里插入图片描述

4.3 点击数据库
点击后,进入以下页面
在这里插入图片描述
4.4 点击添加新服务
点击后,进入以下页面
选择 mysq
在这里插入图片描述
4.5 点击下一步

  • 点击后,进入以下页面
  • 编辑服务名(必填)
  • 以及描述(可选)

在这里插入图片描述

4.6 点击下一步
点击后,进入以下页面
编辑数据库连接信息

在这里插入图片描述
点击 “测试连接”

在这里插入图片描述
点击 “Save”
在这里插入图片描述
4.7 点击添加提取
点击后,进入以下页面
在这里插入图片描述

页面可下滑设置参数,默认即可

4.8 点击下一步
点击后,进入以下页面
这里我们选第一个选项"无",拾取任务我们手动点击运行
在这里插入图片描述
4.9 点击添加部署
点击后,进入以下页面
在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

杭州奥零数据科技

AllData数据中台知识星球

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值