第二章讨论的主要内容:
- 数据类型(the type of data)
- 数据质量(the quality of data)
- 数据预处理(prepocessing steps to make the data suitable for data mining)
- 分析数据间关系(anlayzing data in terms of its relationship)
=============================================================================
2.1 数据类型(the type of data)
数据集(data set):一系列数据对象的集合,并且是被一系列属性描述的数据对象(data object)
2.1.1 属性与度量(Attributes and Measurement)
属性定义:
- 属性定义1:一个描述对象的特征,这个特征可以随着对象不同而不同或者随着时间变化而不同
- 属性定义2:度量标度(a measurement scale):将数值型或者标志型数据(numerical or symbolic value)和数据对象的属性关联起来
属性类型:
属性的值往往有如下几种性质: - 相异性 Distinctness = and ≠
- 序 Order < ≤ > ≥
- 加法 Addition + -
- 乘法 Multiplication * /
具体分