一、直方图
直方图可以直观的看到数据的大致情况;一般有频数分布直方图和频率分布直方图两种。
二、数据的计量尺度
数据的计量尺度是指对计量对象量化时采用的具体标准,它分为以下四类:
- 定类尺度:表现为“ 类别 ” ,各类之间无等级大小差别;
- 定序尺度:描述对象的类别,但具有固有的大小和高低顺序;
- 定距尺度:数据间有固定的距离;
- 定比尺度:它还可以作为比较的共同起点或基数;
序号 | 名称 | 逻辑或数学运算 | 常见例子 | 数据类型 |
1 | 定类尺度 | 等于、不等于 | 性别、名族、职业 | 定性数据 |
2 | 定序尺度 | 等于、不等于、大于、小于 | 职称、健康状况、质量等级 | 定性数据 |
3 | 定距尺度 | 等于、不等于、大于、小于、加减法 | 年份、温度、维度 | 定量数据 |
4 | 定比尺度 | 等于、不等于、大于、小于、加减乘除 | 质量、长度、能量 | 定量数据 |
三、数据的集中趋势
集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在;集中趋势测度就是寻找数据水平的代表值或中心值。
3.1 定量数据:平均数
算术平均数:
加权平均数:
几何平均数:
平均数可以描述定量数据的集中趋势,只适用于定量数据,而且受极值的影响较大,容易向极值附近移动。
3.2 顺序数据:中位数和分位数
将数据按大小排序后,处在数据中点位置的数值就是中位数,它将数据一分为二;分位数是特殊的中位数,比如四分位数就是用3个点将有序数据四等分。
中位数主要用于测试顺序数据的集中趋势,也适用于定量数据的集中趋势,但不适用于分类数据。
中位数位于 (n + 1 ) / 2 位置对应的数(n为奇数); n/2 和 n/2 + 1 位置两个数的平均值(n为偶数)。
中位数是一个位置代表值,其特点就是不受极端值影响。
3.2 分类数据:众数
众数是一组数据中出现次数最多的值,它不唯一,可能没有,可能不止一个。众数是描述分类数据的集中趋势,一般只有在数据量较大的情况下才有意义。
四、数据的离中趋势
离中趋势是指一组数据向某一中心值分散的程度,它反映的是数据远离其中心点的程度,表示离中趋势的指标主要有极差、四分位距、平均差、方差、标准差和离散系数。
4.1 极差
极差也叫全距,展示了数据的整体跨度,是一个比较粗糙的离中趋势指标。
极差 = 最大值 - 最小值
4.2 分位距
分位距是对全距的一种改进,它剔除掉了两端的极值区域,常用的有四分位距、八分位距、十分位距等;
四分位距 = (第三个四分位数 - 第一个四分位数)/ 2
4.3 平均差
平均差是数据组中各数据值与其算术平均数离差绝对值的算术平均数;
当变量数列是由没有分组的数组组成或分组后每组的次数相等的数据组成时采用。
由于平均差是根据数列中所有的数值计算出来的,受极端值影响较小,所以对整个统计数列的离中趋势有较充分的代表性。
4.4 方差与标准差
方差是数据组中各数据值与其算术平均数离差平方的算术平均数,用表示。标准差是方差开根号。
标准差
标准差的实质与平均差基本相同,只不过处理方法不一样,平均差用绝对值消除正负差异后取算术平均数;而标准差用平方消除正负差异再取算术平均数后开方;标准差的指标更灵敏,因此它成为各种离中趋势指标中最重要的一种。
经验所得,一般68%(三分之二)的数据在离平均数1个范围内;95%(二十分之十九)的数据在距平均数2个
范围内。
4.5 离散系数
极差、平均差、标准差评定的离中趋势与变量平均水平的高低有关,如果要比较数据平均水平不同的两组数据的离中程度的大小,我们需要计算它们的相对离中程度指标,即离散系数。而离散系数中常用的指标是标准差系数。
标准差系数的公式:
总结:一般比较数据的离中趋势时,我么首先计算两组数据的极差和四分位距,看看数据的大致跨度,然后计算算术平均数查看数据的大致中心位置,如果平均数相同,可以计算一下平均差或者标准差来查看,如果平均数不同则可计算标准差系数来查看离中趋势。
五、数据分布的测度
在描述性统计中,处理集中趋势和离中趋势,我们还可以用数据的分布形状来分析,数据分布形态主要以正态分布为标准进行衡量。
5.1 数据偏态及其测定
数据分布的不对称性称作偏态。偏态是指数据分布的偏斜方向和程度。在对称分布的情况下,平均数、中位数和众数是相同的;但在偏态分布的情况下,他们是不同的。如果众数在左边,平均数在右边,这说明数据的极端值在右边,数据分布曲线向右延伸,这称为右向偏态(正向偏态)。
测定偏态的指标是偏态系数(SK),它说明了数据分布的不对称性(偏斜程度)程度。
SK = 0时,分布是对称的;SK < 0时,分布呈负偏态,并且值越小,负偏程度越高;SK > 0时,分布呈正偏态,并且值越大,正偏程度越高。
5.2 数据峰度及其测定
峰度是指数据分布的尖峭程度或峰凸程度。根据变量值的集中与分散程度,峰度一般可表现为三种形态:尖顶峰度、平顶峰度和标准峰度。但是这种形态的描述都是相对于正态分布曲线的标准峰度而言的。
测定峰度的指标是峰度系数(K)。峰度系数描述的是数据分布曲线上峰的尖峭程度。
K < 0,与正态分布相比该分布一般扁平、瘦尾、肩部较胖;
K > 0,与正态分布相比该分布一般尖峰、肥尾、肩部较瘦。
5.3 数据偏度和峰度的作用
在实际数据分析过程中,偏度和峰度的作用主要表现在以下两个方面:
一是将偏度和峰度结合起来用于检查样本的分布是否属于正态分布,以便判断总体的分布。例如,样本的偏度接近于0而峰度接近于3,可以推测总体分布接近于正态分布。
二是利用资料之间存在的偏度关系,对算术平均数、众数、中位数进行推断。一般情况下,不是正态分布时,他们有如下关系:
右偏:
左偏:
根据经验,一般在偏态适度时,不管是左偏还是右偏,三者的距离有近似的固定关系:中位数与算术平均数的距离约等于众数与算术平均数距离的1/3 。因此,有如下公式:
,这样,知道任意两个,其它的都能推断出来。
六、数据的展示——统计图
6.1 条形图与扇形图
条形图可以清楚的表明各种数量的多少,比较数据之间的差别。
扇形图可以很清楚的表示出各部分数量同总数之间的关系。
条形图和扇形图在描述数据时,一次只能描述一个变量,通常用于较小的数据集分析。
6.2 折线图
折线图不仅可以表示数量的多少,而且还可以反映同一事物在不同的时间里发展变化的情况;主要用于显示时间数列的数据。
6.3 茎叶图
将数的大小基本不变的位作为茎,将变化较多的位作为叶,列在茎的后面,这样就可以清楚的看到每个主干后面的数有多少、是多少。
比如有一组两位数的数据,将十位作为茎,个位作为叶,相同茎共用,叶列在茎后面;
十位(茎) 个位(叶)
1 02446677789
2 124467779
4 22244444799999
6.4 箱线图
箱线图又称盒须图、盒式图或箱形图,用于显示一组数据的分散情况。它需要使用到六个数据节点:上边缘,上四分位数、中位数、下四分位数、下边缘、异常值。
6.5 统计图小结
面对一组数据选择合适的统计图来表明分析的目的,达到想要的效果是数据分析人员必备的能力。
图表名称 | 分析重点 | 适用数据 |
---|---|---|
条形图 | 两组数据的比较 | 定性数据 |
饼图 | 成分数据的分析 | 定性数据 |
折线图 | 时间数列数据或数据的趋势分析 | 定量数据 |
茎叶图 | 数据的集中趋势分析 | 定量数据 |
箱线图 | 极端数据的分析及数据分布形态 | 定量数据 |
直方图 | 数据分布形态 | 定量数据 |
使用统计图的注意事项:
1. 图运用得当,表达效果更明显;
2. 决定使用何种图的不是数据、不是尺寸,而是你想要说明的主题;
3. 图的使用在于精而不在于多;
4. 图很直观,但代替不了书写和讲述,它只能帮你快速传达主题。
要求: 对各概念熟练掌握,各描述值的计算公式,图表的手动绘制、工具绘制以及选取合适的度量值及图来达到分析的目的。