文章目录
一、 写在前面
大多数情况下,数据分析的过程必须包括数据探索的过程。
数据探索可以有两个层面的理解:一是仅利用一些工具,对数据的特征进行查看;二是根据数据特征,感知数据价值,以决定是否需要对别的字段进行探索,或者决定如何加工这些字段以发挥数据分析的价值。字段的选取既需要技术手段的支撑,也需要数据分析者的经验和对解决问题的深入理解。
二、 数值类型
在进行数据分析时,往往需要明确每个字段的数据类型。数据类型代表了数据的业务含义。
2.1 区间型数据
数值型数据的取值都是数值类型,其大小代表了对象的状态。
2.2 分类型数据
分类型数据的每一个取值都代表了一个类型
2.3 序数型数据
序数型的数据含义就是每个取值是有大小之分
三、 连续型数据
连续型数据的探索,主要关注通过统计指标来反映其分布和特点
3.1 缺失值
取值为空的值即为缺失值。缺失值比例是确定该字段是否可用的重要指标。一般情况下,如果缺失率超过50%,则字段就完全不可用
NULL与0
0是有效值,null是缺失值
3.2 均值
均值就是平均值,其大小放映了整体的水平。
3.3 最大值和最小值
每个数据集中的最大数和最小数
3.4 方差
方差反映各个取值距平均值的离散程度。方差取值越大,说明离散程度越大。
3.5 标准差
标差是方差的开方,含义与方差类似
3.6 中位数
中位数是将排序后的数据集分为两个数据集,这两个数据集分别是取值高的数据集和取值低的数据集,偶数集的中位数是两个值的平均值
3.7 众数
众数是数据集中出现频率最高的数据。众数最常用的场景是分类型数据的统计,其反映了数值型数据的“明显集中趋势点的数值”
3.8 四分位数
Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75
n表示项数
第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
3.9 四分位距
四分位距通过第三四分位数和第一四分位数的差值来计算,即IQR=Q3-Q1。IQR=61-34=27。
四分位距是进行离群值判别的一个重要统计指标。一般情况下,极端值都在Q1-1.5×IQR之下,或者Q3 + 1.5×IQR之上。
3.10 偏斜度
偏斜度是关于表现数据分布的对称性的指标。如果其值是0,则代表一个对称性的分布,值是正值,则代表分布的峰值偏左,值是负值,则代表分布的峰值偏右。
还可以通过中位数和均值的差异来判断分布的偏斜情况:
中位数<均值:偏左分布
中位数、均值相差无几:对称分布
中位数>均值:偏右分布
3.11 峰态
标准正态分布的峰态的值是3,很多数据分析工具中对峰态值减去3,使得:0代表是正态分布;正值代表数据分布有个尖尖的峰值,高于正态分布的峰值;负值代表数据有个平缓的峰值,且低于正态分布的峰值。
峰态指标的主要作用是体现数值分布的尾巴厚度,尖峰对应着厚尾。尖峰厚尾在峰值附近取值较集中,但在非峰值附近取值较分散。
四、 分类型数据
主要从分类的分布等方面进行考察
4.1 缺失值
缺失值是重要的指标,无论是连续型数据还是分类型数据。过多的缺失值,会使得指标失去意义
4.2 类别个数
依据分类型数据中类别的个数,可以对指标是否可用有一个大致的判断。例如,从业务角度看,某个指标应当有6个类别,但实际样本只出现5个类别,则需要重新考虑样本的质量了。某个变量只有一个类别时,对数据分析是完全不可用的
4.3 类别中个体数量
在多数情况下,如果某些类别中个体数量太少,只有1%的比例,可以认为给类别是个离群值。
4.4 众数
数据集中出现频率最高的数据