3.1数据质量可以从多方面评估,包括准确性、完整性和一致性问题。对于以上每个问题,讨论数据质量的评估如何依赖于数据的应用目的,给出例子。提出数据质量的两个其他尺度。
对于数据准确性,以商场业务为例。在顾客地址数据库中,有些地址已经过时或不正确,但还有80%的地址是正确的。对于市场分析人员,考虑到对目标市场的营销,这是一个大型顾客数据库,因此对数据的准确性还算满意。而对于特定的客户经理,当考虑某个客户的地址信息时,这个数据就是不正确的。
对于数据完整性,以耐药性数据库为例。在耐药性数据库中,可能存在某些月份的药敏检测数据缺失的情况。如果这些数据用于分析耐药性在长时间段上的整体趋势,那么某个月份的数据缺失并不造成影响,数据集的完整性是满足要求的。如果这些数据用于生成相关的详细报表,其完整性就无法令人满意。
对于数据一致性。数据库中某两个表中可能存在两个属性含义相同,名称却不同。对于计算机来说,不同的属性名称是不一致的,在数据库的批量处理中造成较大的困难。但对于日常数据阅读和应用,这两个属性的名称可能是易于辨认的,其表达的不一致并不对应用造成影响,因此可以认为一致性是满足要求的。
时效性、可信性和可解释性。
3.2在现实世界的数据中,某些属性上缺失值的元组是比较常见的。讨论处理这一问题的方法。
有以下方法:忽略元组,人工填写缺失值,使用一个全局常量填充缺失值,使用属性的中心度量(如均值或中位数)填充缺失值,使用于给定元组属同一类的所有样本的属性均值或中位数,使用最可能的值填充缺失值。
3.3在习题2.2中,属性age包括如下值(以递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。
(a)使用深度为3的箱,用箱均值光滑以上数据。说明你的步骤,讨论这种技术对给定数据的效果。
划分为箱:
箱1:13,15,16
箱2:16,19,20
箱3:20,21,22
箱4:22,25,25
箱5:25,25,30
箱6:33,33,35
箱7:35,35,35
箱8:36,40,45
箱9:46,52,70
用箱均值光滑:
箱1:14.67,14.67,14.67
箱2:18.33,18.33,18.33
箱3:21,21,21
箱4:24,24,24
箱5:26.67,26.67,26.67
箱6:33.67,33.67,33.67
箱7:35,35,35
箱8:40.33,40.33,40.33
箱9:56,56,56
这种方法可以有效地去除数据中的噪声,但对数据点的改变导致每个数据的含义发生了变化,可能会与数据本身偏离。
(b)如何确定该数据中的离群点?
可以通过聚类来检测离群点。
(c)还有什么其他方法来光滑数据?
箱边界光滑、回归。
3.4讨论数据集成需要考虑的问题。
实体识别问题:来自多个信息源的现实世界的等价实体如何才能“匹配”。在集成期间,当一个数据库的属性与另一个数据库的属性匹配时,必须特别注意数据的结构。
冗余问题:一个属性如果能由另一个或另一组属性“导出”,则这个属性可能时冗余的。属性或维命名的不一致也可能导致结果数据集中的冗余。有些冗余可以被相关分析检测到。给定两个属性,这种分析可以根据可用的数据,度量一个属性能在多大程度上蕴涵另一个。对于标称数据,使用 χ 2 \chi^2 χ2检验。对数值属性,使用相关系数和协方差,它们都评估一个属性的值如何随另一个变化。
元组重复:对于给定的唯一数据实体,存在两个或多个相同的元组。去规范化表的使用是数据冗余的另一个来源。不一致通常出现在各种不同的副本之间,由于不正确的数据输入,或者由于更新了数据的某些出现,但未更新所有的出现。
数据值冲突的检测与处理:对于现实世界的同于实体,来自不同数据源的属性值可能不同。这可能是因为表示、尺度或编码不同。属性也可能在不同的抽象层,其中属性在一个系统中记录的抽象层可能比另一个系统中“相同的”属性低。
3.5如下规范化方法的值域是什么?
(a)最小-最大规范化。
人为设定的最小-最大区间,例如 [ 0.0 , 1.0 ] [0.0,1.0] [0.0,1.0]。
(b)z分数规范化。
[ v m i n − A ˉ σ A , v m a x − A ˉ σ A ] [\frac{v_{min}-\bar{A}}{\sigma_A},\frac{v_{max}-\bar{A}}{\sigma_A}] [σAvmin−Aˉ,σAvmax−Aˉ]其中, A ˉ \bar{A} Aˉ和 σ A \sigma_A σA分别是属性A的均值和标准差。
(c)z分数规范化,使用均值绝对偏差而不是标准差
[ v m i n − A ˉ s A , v m a x − A ˉ s A ] [\frac{v_{min}-\bar{A}}{s_A},\frac{v_{max}-\bar{A}}{s_A}] [sAvmin−Aˉ,sAvmax−Aˉ]其中, s A s_A sA是A的均值绝对偏差(mean absolute deviation)。
(d)小数定标规范化
[ v m i n 1 0 j , v m a x 1 0 j ] [\frac{v_{min}}{10^j},\frac{v_{max}}{10^j}] [10jvmin,10jvmax]其中,j是使得 m a x ( ∣ v i ′ ∣ ) < 1 max(|v_i'|)<1 max(∣vi′∣)<1的最小整数。
3.6使用如下方法规范化如下数据组: 200 , 300 , 400 , 600 , 1000 200,300,400,600,1000 200,300,400,600,1000
(a)令 m i n = 0 , m a x = 1 min=0,max=1 min=0,max=1,最小最大规范化。
v 1 = 0 , v 2 = 300 − 200 1000 − 200 = 0.125 , v 3 = 400 − 200 1000 − 200 = 0.25 , v 4 = 600 − 200 1000 − 200 = 0.5 , v 1 = 1 v_1=0,v_2=\frac{300-200}{1000-200}=0.125,v_3=\frac{400-200}{1000-200}=0.25,v_4=\frac{600-200}{1000-200}=0.5,v_1=1 v