数据校验工具(Data Validation Tool)使用教程

数据校验工具(Data Validation Tool)使用教程

professional-services-data-validator Utility to compare data between homogeneous or heterogeneous environments to ensure source and target tables match professional-services-data-validator 项目地址: https://gitcode.com/gh_mirrors/pr/professional-services-data-validator

1. 项目目录结构及介绍

数据校验工具(Data Validation Tool,简称DVT)的目录结构如下:

professional-services-data-validator/
├── .github/              # GitHub 工作流程和模板
├── ci/                   # 持续集成配置文件
├── data_validation/      # 数据校验核心代码
├── docs/                 # 文档资料
├── samples/              # 使用示例
├── terraform/            # Terraform 配置文件
├── tests/                # 测试代码
├── third_party/          # 第三方依赖库
├── .coveragerc           # 覆盖率配置文件
├── .flake8               # Python Lint 配置文件
├── .gitignore            # Git 忽略文件
├── CHANGELOG.md          # 更新日志
├── CODE_OF_CONDUCT.md    # 行为准则
├── CONTRIBUTING.md       # 贡献指南
├── LICENSE               # 许可证文件
├── README.md             # 项目说明文件
├── RELEASING.md          # 发布指南
├── SECURITY.md           # 安全指南
└── cloudbuild.yaml        # Google Cloud Build 配置文件
  • .github/:包含GitHub Actions工作流程和Pull Request模板等。
  • ci/:包含持续集成相关的配置文件。
  • data_validation/:包含数据校验工具的核心代码。
  • docs/:包含项目文档资料。
  • samples/:包含使用数据校验工具的示例。
  • terraform/:包含Terraform配置文件,用于基础设施的自动化部署。
  • tests/:包含测试代码,确保代码质量。
  • third_party/:包含第三方依赖库。
  • 其他文件:包括配置文件、项目说明、许可证等。

2. 项目的启动文件介绍

项目的启动主要是通过命令行工具进行的。在data_validation/目录下,有一个名为data-validation的脚本文件,这是启动数据校验工具的主要入口。

启动文件data-validation的主要功能是:

  • 解析命令行参数。
  • 根据参数配置和执行数据校验任务。
  • 输出校验结果到控制台或者指定的结果处理程序。

3. 项目的配置文件介绍

数据校验工具(DVT)使用配置文件来定义数据源连接、校验任务和其他参数。配置文件可以是YAML或JSON格式。

配置文件的基本结构如下:

# 示例 YAML 配置文件
connections:
  source_db:
    type: postgres
    host: localhost
    port: 5432
    database: source_db
    user: user
    password: pass
  target_db:
    type: bigquery
    project_id: target_project
    dataset_id: target_dataset

validations:
  - name: "column_validation"
    type: "column"
    source_conn: "source_db"
    target_conn: "target_db"
    tables_list: "public.table1=public.table1"
    columns: ["*"]
    result_handler: "bigquery.target_project.target_dataset.validation_results"
  • connections:定义数据源连接的配置,包括类型、地址、端口、数据库名、用户名和密码等。
  • validations:定义校验任务的配置,包括校验类型、源连接、目标连接、表列表、校验列和结果处理程序等。

professional-services-data-validator Utility to compare data between homogeneous or heterogeneous environments to ensure source and target tables match professional-services-data-validator 项目地址: https://gitcode.com/gh_mirrors/pr/professional-services-data-validator

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

庞翰烽

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值