一般来说,当企业有了全新的业务需求、重大的技术变更,又或者从一个新的数据来源获取了全新的数据,并期望将它应用在一个具体的业务中的时候,我们都需要进行比较完整的数据质量分析。数据质量评估步骤如下:
1、需求分析,明确目标
对具体业务数据的数据质量评价是以业务需求为中心进行的,必须首先了解具体业务针对特定数据资源的需求特征才能建立针对性的评价指标体系。同时,同一份数据在不同的生命周期中,其质量的关注点是存在差异的,因此很重要的一点就是明确当前阶段数据质量管理的目标是什么。有了明确的目标,才能开始对数据进行合理的评估。
2、确定评价对象及范围
确定当前评估工作应用的数据集的范围和边界,明确数据集在属性、数量、时间等维度的具体界限。需要说明的是,评价对象既可以是数据项也可以是数据集,但一定是一个确定的静态的集合。
3、选取质量维度及评价指标
数据质量维度是进行质量评价的具体质量反映,如正确性、准确性等,它是控制和评价数据质量的主要内容。因此,首先要依据具体业务需求选择适当的数据质量维度和评价指标。另外,要选取可测、可用的质量维度作为评价指标准则项,在不同的数据类型和不同的数据生产阶段,同一质量维度有不同的具体含义和内容,应该根据实际需要和生命阶段确定质量维度。
4、确定质量测度及其评价方法
数据质量评价在确定其具体维度和指标对象后,应该根据每个评价对象的特点,确定其测度及实现方法。对于不同的评价对象一般是存在不同的测度的,以及需要不同的实现方法支持,所以应该根据质量对象的特点确定其测度和实现方法。
5、实施质量评估
根据前面四步确定的质量对象、质量范围、测量及其实现方法实现质量评测的活动过程。评价对象的质量应当由多个质量维度