第一章
分类变量
统计学中的变量(variables)大致可以分为数值变量(numrical)和分类变量(categorical)。
有序分类变量和无需分类变量的区别是:前者对于“比较”操作是有意义的,而后者对于“比较”操作是没有意义的。
总体、样本、参数、统计量
总体(Population):所研究的全部个体(数据)的集合,其中每一个个体也称为元素。
样本(Sample):从总体中抽取一部分元素的集合(例如,从社群中抽10名小伙伴,这10名就可以成为样本)
样本容量(Sample size):样本中所含个体的数量
参数:研究者想要了解的总体的某种特征值。所关心的参数主要有总体均值、总体标准差、总体比例等。研究总体目的
统计量:用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数。
需要注意的重点是:【统计量对应样本】【参数对应总体】
数据的分类
按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
分类数据:只能归于某一类别的非数字型数据。例如:人口性别
顺序数据:只能归于某一有序类别的非数字型数据,例如:将产品分成不同的等级。
数值型数据:按数字尺度测量的观测值,
按照统计数据的收集方法,可以将统计数据分为观测数据和实验数据
观测数据:通过调查或观测而收集到的数据,是在没有对事物人为控制的条件下而得到的。
实验数据:在实验中控制实验对象而收集到的数据。
按照被描述的对象与时间的关系,可以将统计数据分为截面数据和时间序列数据
截面数据:在相同或近似相同的时间点上收集的数据。描述的是现象某一时刻的变化情况
时间序列数据:在不同时间上收集到的数据。描述的是现象随时间而变化的情况
第二章
抽样类型
简单随机抽样
对总体不做任何处理,直接按照随机原则抽取调查单位。
分层随机抽样(类型抽样)
将总体按照某一主要标志进行分类(分组),在各类别中抽取一部分调查单位共同组成样本。(组内的个体差异较小时而各层的差异比较大)