文章目录
简介
本文将讲解数据质量管理的目标,质量问题产生的根源,数据质量的评估,数据质量管理流程。
一. Why? 为什么要作数据质量
数据质量管理主要解决「数据质量现状如何,谁来改进,如何提高,怎样考核」的问题。
因为最开始的关系型数据库时代,做数据治理最主要的目的,就是为了提升数据质量,让报表、分析、应用更加准确。时至今日,虽然数据治理的范畴扩大了很多,我们开始讲数据资产管理、知识图谱、自动化的数据治理等等概念,但是提升数据的质量,依然是数据治理最重要的目标之一。
为什么数据质量问题如此重要?因为数据要能发挥其价值,关键在于其数据的质量的高低,高质量的数据是一切数据应用的基础。
如果一个组织根据劣质的数据分析业务、进行决策,那还不如没有数据,因为通过错误的数据分析出的结果往往会带来“精确的误导”,对于任何组织来说,这种“精确误导”都无异于一场灾难。
根据统计,数据科学家和数据分析员每天有30%的时间浪费在了辨别数据是否是“坏数据”上,在数据质量不高的环境下,做数据分析可谓是战战兢兢。可见数据质量问题已经严重影响了组织业务的正常运营。通过科学的数据质量管理,持续地提升数据质量,已经成为组织内刻不容缓的优先任务。
二. Where? 数据质量问题有哪些?
做数据质量管理,首先要搞清楚数据质量问题产生的原因。原因有多方面,比如在技术、管理、流程方面都会碰到。但从根本上来时,数据质量问题产生的大部分原因在于业务上,也就是管理不善。许多表面上的技术问题,深究下去,