Outline
1、数据特点
属性和对象
数据类型
数据质量
2、 基本数据探索技术
基本统计学
数据可视化
3、对分类问题的介绍
决策树
Data exploration
初步的数据探索是为了更好的理解数据特点
-
其动机在于:有助于在为数据预处理和分析时选择正确的工具、利用人类的能力识别模式
-
用到的技术有: 可视化、聚类和异常检测
要注意的是,在数据挖掘中,聚类和异常检测是主要的关注领域,而不是仅仅是探索性技术。
摘要统计summary statistics
摘要统计是总结到的数据属性的个数。汇总的属性包括频率,位置和散布。比如我们用均值定位,用标准差确定散布程度
频率和模式
frequency:某属性的频率就是该属性出现的百分比
mode:属性的模式是最频繁的属性值
百分位percentiles
一般对于连续数据,百分位的概念更有用。
定义:给定连续属性x 和 介于0和100之间的数字p,那么第p个百分位数xp,就是使x的前p%的值均小于xp。
(来自百度百科:一组n个观测值按数值大小排列。处于p%位置的值称第p百分位数)
平均值,中值
- mean平均值:比较通用的位置测量方法,但是对异常点outliers很敏感
- median 中值:所有数据排序后,最中间的那个数据值
传播测量 :范围和方差 - 范围range:最大值➖最小值
- 方差variance:
常用的可视化技术
- 直方图
将某属性值划分根据类别或者范围划为箱,并显示每个箱中对象数量的条形图。每个条形的高度表示对象的数量 - 箱形图
- 散点图
- 矩阵图: matrix plots
- 平行坐标:parallel coordinates
代替使用垂直轴,而使用一组平行轴。将每个对象的属性值绘制为每个相应坐标轴上的一个点,并用一条线将这些点连接起来,这样每个对象都被表示为一条线。通常,代表不同类别的对象的线 至少在某些属性上分组在一起。画这种图的时候,属性排序比较重要。见下图
- 星形图
与平行坐标法相似 ,只不过轴从中心辐射出去,先就变成了多边形polygon。 - chernoff 脸
这种方法将每个属性与面部特征相关联,比如脸的长度,额头的形状等等,如下图:
1、先将每个属性与面部特征相关联
2、得到人脸轮廓
3、得到脸
- 建立多维数组
确定哪些属性将成为维度(应该是离散的)和 哪个属性将成为目标属性。
通过将(目标属性的)值或具有与该条目对应的属性值的所有对象的计数求和,来找到多维数组中每个条目的值。
比如下图:
数据属性
-
数据是数据对象及其属性的组合:
-
数据可能会有不同的parts ,这些parts之间可能会有关联,数据也可能有结构,也可能是不完整的。。。。
-
属性的类型:
1、nominal 无序的,类别属性。比如卡号,眼睛颜色。按照是否一样分
2、ordinal 有序属性,比如身高,名次。按照大小分
3、interval 比如日期,温度。按照是否一样,大小和和差是否有意义。
3、ratio 比如长度,数量。按照是否一样,大小和和差是否有意义,比例是否有意义。
判断一个属性是什么类别的,看下表即可:
-
包含记录集合的数据,每个记录包含一组固定的属性