这篇笔记是《数据挖掘:概念与技术》第2章的小结。
数据对象和属性
一个数据对象代表一个实体,如医疗数据库中,对象可以是患者,在大学数据库中,对象可以是学生、老师、课程。数据对象又称为样本、实例、数据点。
属性是一个数据字段,表示数据对象的一个特征,一个数据对象可以有多个属性。属性又称为维、特征、变量。属性类型可以是标称的、二元的、序数的或数值的,由这个属性可能具有的值的集合所决定。
1、标称属性
它的值是一些符号或事物的名称,表示类别、编码、状态,是枚举的。
2、二元属性
只有0和1,它的意义可以是对称的(同等重要、地位一样)或非对称的(分轻重、地位不一样)
3、序数属性
有意义的序列或秩评定。相继值之间的差是未知的。可以把数值量的值域划分成有限个有序类别,从而成为序数属性。
4、数值属性
用整数或实数值表示,可度量。
(1)区间标度属性
用相等的单位尺度度量,值有序,允许比较和定量评估值之间的差,但是不能用比率谈论这些值。例如:温度
(2)比率标度属性
具有固定零点的数值属性,可以说一个值是另一个的倍数。例如:速度
5、离散属性、连续属性
离散属性具有有限或无限个值,可以用或不用整数表示。
如果属性不是离散的,则它是连续的。
数据的基本统计描述
数据的基本统计描述可以用来识别数据的性质,凸显哪些数据应该视为噪声或离群点。
1、中心趋势度量:度量数据分布的中部或中心位置
均值、中位数、众数、中列数
2、数据的散布:研究数据如何分散
极差、四分位数、四分位数极差、五数概括、盒图、方差、标准差
3、数据可视化的形式
条形图、饼图、线图、分位数图、分位数-分位数图、直方图、散点图
4、数据可视化的技术
基于像素的技术、几何投影可视化技术、基于图符的可视化技术、层次可视化技术、标签云
可视化除了数据可视化外,也可用于表现挖掘过程、从挖掘方法得到的模式,以及用户与数据交互。
数据的相似性和相依性的度量方法
首先给出两种矩阵:数据矩阵、相异性矩阵
数据矩阵(二模矩阵):行代表对象,列代表属性

相异性矩阵(单模矩阵):d(i,j)是对象i和j之间的相异性度量。许多聚类和最近邻算法都在相异性矩阵上运行。数据矩阵可转化为相异性矩阵。