探索数据
- 有助于选择合适的数据预处理和数据分析技术
- 处理一些通常由数据挖掘解决的问题
- 包括三个主题:汇总统计、可视化、OLAP
3.2 汇总统计
-
频率和众数
- 多用于分类数据
-
百分位数
- 多用于连续数据
-
位置度量:均值和中位数
- 均值对离群值很敏感 ——> 截断均值
-
散布度量:极差和方差
- 极差是最大值和最小值的差
- 方差对离群值敏感,常常需要使用更稳健的估计:
- 绝对平均偏差(AAS)
- 中位数绝对偏差(MAD)
- 四分位数极差(IQR)
- 绝对平均偏差(AAS)
-
多元汇总统计
- 协方差矩阵:
- 相关矩阵
- 【-1,1】之间
3.3 可视化
- 协方差矩阵:
-
表示:将数据映射到图形元素
-
安排
-
选择:删除或不突出某些对象和属性
- 对于维度不太高的可以构造双变量(双属性)图矩阵用于联合观察
技术
- 直方图:
- 常显示单变量的分布
- 相对频率直方图:用相对频率取代计数
- 二维直方图:
- 盒状图(箱型图):显示一维数值属性值分布
- 散布图(Scatter plots):
- 多用于二维,图形化地显示两个属性之间的关系。
- 当类标号给出时,可以使用散布图考插两个属性将类分开的程度。
可视化高维数据
- 以下只能显示数据的某些侧面!!
- 矩阵:
- 属性需要规范化
- 平行坐标系
- 星形坐标
- 和平行坐标系很相似,但是轴从中心点向四周辐射
- Chernoff Faces、
- 将每个属性与脸的特征联系起来
- 每一个对象都是一个独立的脸