🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。
✨杭州奥零数据科技官网:http://www.aolingdata.com
✨Github项目:https://github.com/alldatacenter/alldata
✨Gitee项目:https://gitee.com/alldatacenter/alldata
✨AllData官方手册:https://www.yuque.com/aolingdata/product
✨AllData正式环境:http://43.138.156.44:5173/ui_moat
摘要:本文档介绍如何在Linux服务器上部署Airflow服务,与openmetadata进行集成,后在openmetadata系统中实现对Airflow工作流数据的拾取以及数据库元数据的拾取。
• openmetadata:1.6.0
• airflow:2.9.1

元数据管理平台基于开源项目OpenMetaData建设
元数据管理平台OpenMetaData通过全面的元数据采集、强大的存储与检索、深度的分析与治理、灵活的应用与共享、高扩展性与定制化以及直观的用户体验,为企业提供了一站式的元数据管理解决方案。
- OpenMetaData开源项目:https://github.com/open-metadata/OpenMetadata
- 更多教程可以参考官方教程文档:https://docs.open-metadata.org/latest
1、环境安装
- Miniconda:安装不同版本的python 虚拟环境的工具
- JDK:17
1.1 Minicoonda
1.1.1 安装
- 下载地址:https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
- 服务器上创建 Miniconda 安装包存放目录并切换到该目录

- 在本地主机下载好安装包后上传至服务器,可通过以下命令上传

- 在服务器 /opt/software 目录下执行以下命令开始安装,按照提示操作,直到安装完成

- 在安装过程中,出现以下提示时,可以自行指定安装路径,也可以使用默认路径

- 出现以下字样,即为安装完成

- 加载环境配置文件,使刚刚安装 Miniconda 配置生效

- Miniconda 安装完成后,每次打开终端都会激活其默认的 base 环境,我们可通过以下命令,禁止激活默认 base 环境

- 配置 conda 国内镜像

1.1.2 查看环境

1.1.3 创建虚拟环境

1.1.4 删除虚拟环境

1.1.5 激活虚拟环境

1.1.6 退出虚拟环境

1.2 JDK
- 下载地址:https://www.oracle.com/java/technologies/javase/jdk17-0-13-later-archive-downloads.html
- 找到以下软件包进行下载即可

- 下载完成后,上传到我们服务器并解压即可
2、安装AirfIow
2.1 设置环境变量

- AIRFLOW_HOME:Airflow 配置文件、日志等信息存放目录
- AIRFLOW__OPENMETADATA_AIRFLOW_APIS__DAG_GENERATED_CONFIGS:openmetadata提取任务配置文件生成目录
2.2 创建虚拟环境
- 执行以下命令,按照提示操作

- 激活虚拟环境

2.3 安装
执行以下命令开始安装

安装完成后,可执行以下命令,查看安装的版本

查看airflow相关配置信息

2.4 修改配置

2.4.1 airflow webserver端口

- 用户可以修改为其他端口,也可以使用默认配置
2.4.2 executor

执行器,官方建议设置为 LocalExecutor

2.4.3 数据库

默认使用本机的sqlite存储,官方建议修改为 mysql 数据库


2.4.4 auth_backends

要让openmetadata支持airflow元数据拾取需要修改该配置为

2.5 初始化数据库
执行以下命令进行数据库初始化

修改系统登录密码,这里我们修改密码为 alldata2.6 安装插件安装此插件,即可支持openmetadata集成airflow元数据拾取

2.7 启动airflow

启动完成后,执行以下命令验证插件是否安装成功

- 32g004是我们的服务器域名
- 8100是我们的airflow webserver端口地址
- 出现如下信息表示安装成功

3、airflow元数据拾取
3.1 进入openmetadata页面

3.2 点击服务
点击后,进入以下页面

3.3 点击工作流
点击后,进入以下页面

3.4 点击添加新服务
- 点击后,进入以下页面
- 选择 Airflow

3.5 点击下一步
- 点击后,进入以下页面
- 编辑服务名(必填)
- 以及描述(可选)

3.6 点击下一步
点击后,进入以下页面

- Host And Port:Airflow的服务地址,输入以下内容

Metadata Database Connection 修改为 BackendConnection,如下图

点击测试连接,成功后如下图

点击 Save,服务创建成功

3.7 点击添加拾取
点击后,进入以下页面
以下配置默认即可


3.8 点击下一步
点击后,进入以下页面
这里我们选第一个选项无,拾取任务我们手动点击运行

3.9 点击添加部署
点击后,进入以下页面

3.10 点击查看服务
点击后,进入以下页面
此时,已完成一次工作流拾取任务,可以看到工作流信息

3.11 点击提取
点击后,进入以下页面
可以看到我们的拾取任务的状态以及执行日志

3.12 登录Airflow

4、mysql元数据拾取
4.1 进入openmetadata页面

4.2 点击服务
点击后,进入以下页面

4.3 点击数据库
点击后,进入以下页面

4.4 点击添加新服务
点击后,进入以下页面
选择 mysq

4.5 点击下一步
- 点击后,进入以下页面
- 编辑服务名(必填)
- 以及描述(可选)

4.6 点击下一步
点击后,进入以下页面
编辑数据库连接信息

点击 “测试连接”

点击 “Save”

4.7 点击添加提取
点击后,进入以下页面

页面可下滑设置参数,默认即可
4.8 点击下一步
点击后,进入以下页面
这里我们选第一个选项"无",拾取任务我们手动点击运行

4.9 点击添加部署
点击后,进入以下页面


被折叠的 条评论
为什么被折叠?



