数据基础
author:秦景坤
date:2017-07-02
GitHub: https://github.com/Roc-J/R
- 观测
- 变量
- 数据矩阵
一个数据矩阵一行是一次观测,一列是一个变量
变量的类型
- 主要是数值问题
- 连续-可在给定区间取任意数值(无限)
- 离散-在给定数值集合内取值(有限)
- 分类问题(qualitative)-取值空间有限,不能进行运算
- 无序-不可比较
- 有序-顺序有意义
- 主要是数值问题
变量间的关系(对应不同的可视化方法和统计分析方法)
- 两个数值变量
- 两个分类变量
- 一个数值变量,一个分类变量
数值变量的特征和可视化
- 数据集中趋势的测量(measures of center)
- 均值(mean)、中位数(median)、众数(mode)
example:
1 9 2 8 3 9 4 5 7 6
均值 = (1+9+2+8+3+9+4+5+7+6)/10 = 5.4
中位数 = 排序后位于正中间的一个数 或 位于正中间的两个数的均值 = 5.5
众数 = 出现次数最多的数 = 9
数据分散趋势的测量(measures of spread)
- 值域(range:max-min)、方差(variance)、标准差(standard variance)、标准差(standard variance)、四分位距(interquartile range)
稳健统计量(robust statistics)
- 是:中位数、四分位差(受极端值影响小)
- 否:均值、标准差、值域(受极端值影响大)
一个变量的可视化
-柱状图(histogram)、点图(dot plot)(分布)
-箱图( box plot)(中位数、分位点、极端值)竖着放的
- 中位数
- 25%分位点
- 75%分位点
- 四分位距IQR
- 最左边的线是 Q1-1.5IQR
- 最右边的线是 Q3+1.5IQR
两个变量的关系
- 散点图(scatter plot):方向、形状、强度、极端值
分类变量的特征和可视化
分类变量是不可以进行数学运算的,所以不像数值变量有平均值等的概念。
一个分类变量的可视化
-频率表(frequency table)、条形图(bar plot)两个分类变量的关系
-关联表(contingency table)、相对频率表(relative frequencies)
-分段条形图、相对频率分段条形图- 马赛克图(mosaicplot)
一个分类变量、一个数值变量的关系
-并排箱图(side-by-side box plot)