第2章 数据类型
通常,数据集可以看作数据对象的集合。数据对象有时也叫做记录、点、向量、模式、事件、案例、样本、观测或实体。数据对象用一组刻画对象基本特性的属性描述。属性有时也叫做变量、特征、字段、特征或维。
属性(attribute)是对象的性质或特征,它因对象而异,或随时间而变化。
测量标度(measurement scale)是将数值或符号值与对象的属性相关联的规则(函数)。
四种属性类型:标称(nominal)、序数(ordinal)、区间(interval)和比率(ratio)
标称和序数属性统称分类的(categorical)或定性的(qualitative)属性。区间和比率属性,统称定量的(quantitative)或数值的(numeric)属性。
用值的个数描述属性
离散的(discrete):离散属性具有有限个值或无限可数个值。这样的属性可以是分类的,也可以是数值的,如计数。二元属性(binary attribute)是离散属性的一种特殊情况。
连续的(continuous):连续属性是取实数值的属性。
非对称的属性
对于非对称的属性(asymmetric attribute),出现非零属性值才是重要的。
数据集的一般特性:维度、稀疏性和分辨率。
维度(dimensionality):数据集的维度是数据集中的对象具有的属性数目。
稀疏性(sparsity):有些数据集,如具有非对称特征的数据集,一个对象的大部分属性上的值都为0。
分辨率(resolution):常常可以在不同的分辨率下得到数据,并且在不同的分辨率下数据的性质也不同。
常将数据集类型分成三组:记录数据、基于图形的数据和有序的数据。
数据质量
1、测量误差和数据收集错误
术语测量误差(measurement error)是指测量过程中导致的问题。一个常见的问题是:在某种程度上,记录的值与实际值不同。对于连续属性,测量值与实际值的差称为误差(error)。
术语数据收集错误(data collection error)是指诸如遗漏数据对象或属性值,或不当地包含了其他数据对象等错误。
2、噪声和伪像
噪声是测量误差的随机部分。数据错误可能是更确定性现象的结果,如一组照片在同一地方出现条纹。数据的这种确定性失真常称作伪像(artifact)。
3、精度、偏倚和准确率
精度(precision)(同一个量的)重复测量值之间的接近程度。精度通常用值集合的标准差度量。
偏倚(bias)测量值与被测量之间的系统的变差。偏倚用值集合的均值与测出的已知值之间的差度量。
准确率(accuracy)被测量的测量值与实际值之间的接近度。
4、离群点
离群点(outlier)是在某种意义上具有不同于数据集中其他大部分数据对象的特征的数据对象,或是相对于该属性的典型值来说不寻常的属性值。我们也称其为异常(anomalous)对象或异常值。
区别噪声和离群点这两个概念是非常重要的。离群点可以是合法的数据对象或值。因此,不像噪声,离群点本身有时是人们感兴趣的对象。例如,欺诈和网络攻击检测中,目标就是从大量正常对象或事件中发现不正常的对象和事件。
5、遗漏值
6、不一致的值
7、重复数据