🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。
✨杭州奥零数据科技官网:http://www.aolingdata.com
✨AllData开源项目:https://github.com/alldatacenter/alldata
✨Gitee组织:https://gitee.com/alldatacenter
摘要:AllData数据中台数据质量平台(DataVines)是一款自动化数据质量检测与治理工具。能定时获取数据源元数据构建数据目录,生成数据概览报告,帮助用户快速理解数据分布和变化趋势,为数据治理提供决策依据,保障数据质量。文章内容主要为以下四部分:
一、在线演示环境
二、功能简介
三、源码编译部署安装
四、访问数据质量平台页面
💡Tips:关注「公众号」大数据商业驱动引擎
🔹AllData数据中台线上正式环境:http://43.138.156.44:5173/ui_moat/
请联系市场总监获取账号密码
2.1 数据质量平台基于开源项目DataVines建设
数据质量平台(DataVines)是一款自动化数据质量检测与治理工具。
支持字段完整性、格式合规性、数值阈值等百余类校验规则,可构建动态监测体系,实时扫描表、字段级数据波动,依托智能阈值算法对延迟、重复、逻辑矛盾等问题毫秒级预警。
同时,数据质量平台能定时获取数据源元数据构建数据目录,生成数据概览报告,帮助用户快速理解数据分布和变化趋势,为数据治理提供决策依据,保障数据质量。
🔹DataVines开源项目:https://github.com/datavane/datavines
🔹DataVines文档地址:https://datavane.github.io/datavines-website/
2.2 数据质量平台功能特点:
- 全流程质量闭环管控
- 灵活规则引擎
- 动态监测体系
- 智能阈值算法
- 多数据源支持
- 深度定制与扩展
- 内置多种检查规则
- 元数据管理
- 问题处理功能
💡部署步骤:
3.1 环境准备
🔹软件环境:
Git:用于克隆项目代码,确保能够顺利执行git clone命令。
JDK:版本需大于等于8,为项目运行提供Java环境支持。
Maven:版本需大于等于3.6.0,用于项目的顺利打包。
MySQL:版本需大于等于5.7,作为DataVines的元数据存储数据库。
🔹硬件资源:
根据预计的数据量和业务负载,准备足够的服务器资源,包括CPU、内存和磁盘空间。
3.2 获取源码
🔹版本选择:建议使用与AIIData商业版兼容的DataVines版本。
3.3 编译构建
🔹数据库初始化:
启动MySQL数据库并创建新数据库,例如命名为Datavines。
将script/sql/datavines-mysql.sql下的SQL文件直接在MySQL中运行,完成数据库初始化。
🔹源码编译:
如果使用MySQL数据库,需修改pom.xml文件,将mysql-connector-java依赖的scope改为compile。使用PostgreSQL则不需要此操作。
运行如下命令进行项目构建打包:
3.4 部署及运行配置 --选择Java8,DataVines进行源码编译打包:
–获得部署安装包:
3.5 部署及运行配置 --解压安装包:
对构建生成的部署包进行解压,例如:
–编辑配置信息:
进入conf目录,编辑application.yaml文件,修改数据库信息,例如:
–启动服务:
进入bin目录,执行启动命令:
在浏览器中输入服务器IP和端口(默认5600),例如http://服务器IP:5600,跳转至登录界面,输入默认账号密码(可联系AllData市场总监/技术同事获取账号密码)。
3.6 可选配置
🔹数据源配置:
- 进入首页后,点击右上角创建数据源按钮,输入数据源的名称,然后选择数据源类型(如MySQL)。
- 输入MySQL的连接信息,点击测试连接按钮,如果成功则单击保存。
🔹作业管理:
- 进入数据源,找到作业管理页面。
- 点击创建规则作业按钮,选择数据质量作业,进入规则的配置页面。
- 进行规则配置,例如选择枚举值[不在]检查规则,依次选择数据库、表和列,输入枚举数组[0,1]进行期望值配置(如果没有期望值则选择无),构成【实际值> 10】公式,公式成立时表示检查结果为成功,否则是失败。
- 完成配置后点击保存并运行来执行检查作业。
🔹结果查看:
- 在作业列表找到刚刚创建并执行的检查作业,点击执行记录页面,可以看到执行历史列表。
- 点击日志按钮,可以看到规则执行的日志信息;点击结果按钮,可以看到规则执行的检查结果;点击错误数据按钮,可以看到规则执行的错误数据。
4.1 数据质量平台-功能概览
4.2 数据源管理
数据源管理功能支持多源数据接入,统一管理数据源实例,保障数据集成与质量监控的基础稳定性。
4.3 创建数据源
4.4 编辑数据源
4.5 质量大盘
质量大盘全局监控数据质量,实时展示关键指标与异常波动,助力快速决策。
4.6 数据质量平台-日志
4.7 数据目录
可自动构建数据资产视图,实时追踪数据分布与变化趋势。
4.8 新增标签
4.9 作业管理-数据质量作业
支持自定义规则校验,自动化调度执行,实时监控与修复数据质量问题。
4.10 运行成功
4.11 编辑作业-作业配置
4.12 定时任务配置
4.13 SLA配置
4.14 配置文件
4.15 脚步预览
4.16 执行记录
4.17 日志
4.18 检查结果
4.19 查看错误数据
4.20 作业管理-数据比对作业
支持多源异构数据精准比对,自动识别差异并生成报告,保障数据一致性。
4.21 作业执行记录
4.22 告警管理-SLA管理
4.23 创建SLA
4.24 关联规则作业-TestSLA-用于监控TestSLA相关数据的SLAS
4.25 通知管理
4.26 添加管理
4.27 错误数据管理-存储管理
4.28 创建错误数据存储
4.29 编辑
4.30 用户管理
4.31 邀请用户
4.32 标签管理
支持自定义数据标签体系,实现数据分类与快速检索,提升数据资产的可理解性和利用效率。
4.33 新增标签
4.34 参数管理
4.35 创建参数