〔从零搭建〕数据质量平台部署指南

🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。
✨杭州奥零数据科技官网:http://www.aolingdata.com
✨AllData开源项目:https://github.com/alldatacenter/alldata
✨Gitee组织:https://gitee.com/alldatacenter

摘要:AllData数据中台数据质量平台(DataVines)是一款自动化数据质量检测与治理工具。能定时获取数据源元数据构建数据目录,生成数据概览报告,帮助用户快速理解数据分布和变化趋势,为数据治理提供决策依据,保障数据质量。文章内容主要为以下四部分:

一、在线演示环境
二、功能简介
三、源码编译部署安装
四、访问数据质量平台页面

💡Tips:关注「公众号」大数据商业驱动引擎

在这里插入图片描述
🔹AllData数据中台线上正式环境:http://43.138.156.44:5173/ui_moat/
请联系市场总监获取账号密码

在这里插入图片描述
在这里插入图片描述
2.1 数据质量平台基于开源项目DataVines建设

数据质量平台(DataVines)是一款自动化数据质量检测与治理工具。

支持字段完整性、格式合规性、数值阈值等百余类校验规则,可构建动态监测体系,实时扫描表、字段级数据波动,依托智能阈值算法对延迟、重复、逻辑矛盾等问题毫秒级预警。

同时,数据质量平台能定时获取数据源元数据构建数据目录,生成数据概览报告,帮助用户快速理解数据分布和变化趋势,为数据治理提供决策依据,保障数据质量。

🔹DataVines开源项目:https://github.com/datavane/datavines
🔹DataVines文档地址:https://datavane.github.io/datavines-website/

2.2 数据质量平台功能特点:

  • 全流程质量闭环管控
  • 灵活规则引擎
  • 动态监测体系
  • 智能阈值算法
  • 多数据源支持
  • 深度定制与扩展
  • 内置多种检查规则
  • 元数据管理
  • 问题处理功能

在这里插入图片描述
💡部署步骤:
在这里插入图片描述
3.1 环境准备

🔹软件环境:
Git:用于克隆项目代码,确保能够顺利执行git clone命令。
JDK:版本需大于等于8,为项目运行提供Java环境支持。
Maven:版本需大于等于3.6.0,用于项目的顺利打包。
MySQL:版本需大于等于5.7,作为DataVines的元数据存储数据库。

🔹硬件资源:
根据预计的数据量和业务负载,准备足够的服务器资源,包括CPU、内存和磁盘空间。

3.2 获取源码
🔹版本选择:建议使用与AIIData商业版兼容的DataVines版本。
在这里插入图片描述

3.3 编译构建

🔹数据库初始化:
启动MySQL数据库并创建新数据库,例如命名为Datavines。

将script/sql/datavines-mysql.sql下的SQL文件直接在MySQL中运行,完成数据库初始化。

🔹源码编译:
如果使用MySQL数据库,需修改pom.xml文件,将mysql-connector-java依赖的scope改为compile。使用PostgreSQL则不需要此操作。

运行如下命令进行项目构建打包:
在这里插入图片描述

3.4 部署及运行配置 --选择Java8,DataVines进行源码编译打包:
在这里插入图片描述

–获得部署安装包:
在这里插入图片描述

3.5 部署及运行配置 --解压安装包:
对构建生成的部署包进行解压,例如:
在这里插入图片描述

–编辑配置信息:
进入conf目录,编辑application.yaml文件,修改数据库信息,例如:
在这里插入图片描述
–启动服务:
进入bin目录,执行启动命令:
在浏览器中输入服务器IP和端口(默认5600),例如http://服务器IP:5600,跳转至登录界面,输入默认账号密码(可联系AllData市场总监/技术同事获取账号密码)。
在这里插入图片描述

3.6 可选配置
🔹数据源配置:

  • 进入首页后,点击右上角创建数据源按钮,输入数据源的名称,然后选择数据源类型(如MySQL)。
  • 输入MySQL的连接信息,点击测试连接按钮,如果成功则单击保存。

🔹作业管理:

  • 进入数据源,找到作业管理页面。
  • 点击创建规则作业按钮,选择数据质量作业,进入规则的配置页面。
  • 进行规则配置,例如选择枚举值[不在]检查规则,依次选择数据库、表和列,输入枚举数组[0,1]进行期望值配置(如果没有期望值则选择无),构成【实际值> 10】公式,公式成立时表示检查结果为成功,否则是失败。
  • 完成配置后点击保存并运行来执行检查作业。

🔹结果查看:

  • 在作业列表找到刚刚创建并执行的检查作业,点击执行记录页面,可以看到执行历史列表。
  • 点击日志按钮,可以看到规则执行的日志信息;点击结果按钮,可以看到规则执行的检查结果;点击错误数据按钮,可以看到规则执行的错误数据。

在这里插入图片描述
4.1 数据质量平台-功能概览
在这里插入图片描述

4.2 数据源管理
数据源管理功能支持多源数据接入,统一管理数据源实例,保障数据集成与质量监控的基础稳定性。
在这里插入图片描述

4.3 创建数据源
在这里插入图片描述

4.4 编辑数据源
在这里插入图片描述

4.5 质量大盘
质量大盘全局监控数据质量,实时展示关键指标与异常波动,助力快速决策。
在这里插入图片描述

4.6 数据质量平台-日志
在这里插入图片描述

4.7 数据目录
可自动构建数据资产视图,实时追踪数据分布与变化趋势。

图片

4.8 新增标签
在这里插入图片描述

4.9 作业管理-数据质量作业
支持自定义规则校验,自动化调度执行,实时监控与修复数据质量问题。
在这里插入图片描述

4.10 运行成功
图片

4.11 编辑作业-作业配置
在这里插入图片描述

4.12 定时任务配置
在这里插入图片描述

4.13 SLA配置
在这里插入图片描述

4.14 配置文件
在这里插入图片描述

4.15 脚步预览
在这里插入图片描述

4.16 执行记录
在这里插入图片描述

4.17 日志
在这里插入图片描述

4.18 检查结果
在这里插入图片描述

4.19 查看错误数据
在这里插入图片描述

4.20 作业管理-数据比对作业
支持多源异构数据精准比对,自动识别差异并生成报告,保障数据一致性。
在这里插入图片描述

4.21 作业执行记录
在这里插入图片描述

4.22 告警管理-SLA管理
在这里插入图片描述

4.23 创建SLA
在这里插入图片描述

4.24 关联规则作业-TestSLA-用于监控TestSLA相关数据的SLAS
在这里插入图片描述

4.25 通知管理
在这里插入图片描述

4.26 添加管理
在这里插入图片描述

4.27 错误数据管理-存储管理
在这里插入图片描述

4.28 创建错误数据存储
在这里插入图片描述

4.29 编辑
在这里插入图片描述

4.30 用户管理
在这里插入图片描述

4.31 邀请用户
在这里插入图片描述

4.32 标签管理
支持自定义数据标签体系,实现数据分类与快速检索,提升数据资产的可理解性和利用效率。
在这里插入图片描述

4.33 新增标签

在这里插入图片描述

4.34 参数管理
在这里插入图片描述

4.35 创建参数
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AllData公司负责人

AllData数据中台知识星球

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值