国产数据仓库的领先企业GBASE南大通用自主研发的GBase 8a MPP (GBase UP LDW)分布式逻辑数据仓库,作为一款在电信和金融行业实现规模部署的国产数据库产品,已经积累了100+用户国外数据库替换迁移项目案例,通过众多项目迁移实施,GBase 8a积累了丰富的实施经验,形成了一套完整异构数据库迁移实施方案,本文将概要介绍异构数据库迁移方案相关工作内容和技术要点。
4.数据稽核
数据稽核的最终目的是检验迁移的脚本和程序的正确性,采用的方法是通过比对原系统和迁移系统对相同数据的加工结果,通过结果是否一致来推断过程是否迁移的正确。
数据准确不等于完全相同,数据准确是指对比数据的结果在预期可接受的误差范围之内,在迁移项目中做到100%的运算结果完全相同有时是无法做到的,其可能原因包括:抽取前端数据的业务时间不同,不同数据库对计算结果的舍入和截取的规则不同,不同数据库对相同排序列值数据的排列顺序不一致,不同数据库对加载文件中的少量脏数据的处理机制不同等原因造成。
1)常用的稽核思路
自顶向下的稽核顺序:上层指标核对通过则可暂时不考虑底层的不一致问题
自底向上的错误排查顺序:出现不一致的上层指标需要利用血缘关系图从底层开始排查
2)数据稽核常用方法
总量稽核:count值、sum值、avg值对比
分量稽核:对表内各维度进行group by后对这个维度的一个指标值进行count、sum、avg核对
错误对比:在发现不一致的表时,将对比的表拉到一个环境上进行详细分析,如进行minus运算,找出差数据再进一步分析
稽核报告:稽核报告是稽核工作输出物,对数据一致性问题进行记录和分析,对之前解决的问题进行追溯,形成数据稽核工作常见问题的知识体系