符号含义
o样本标准差或s总体标准差、n样本数、p总体比例或π样本比例、相关系数w、R相关系数、Ra、B回归系数、误差项左w
1统计学绪论
统计学含义:统计学是一门收集、处理、分析、解释数据并从数据中得到结论的科学
- 总体:所研究的全部个体的集合,其中的每一个元素成为个体
- 样本:从总体中抽取的一部分元素的集合
- 参数:用来描述总体特征的概括性数字度量
- 统计量:用来描述样本特征的概括性数字度量
统计数据类型:
- 分类数据:某一类别,事物分类的结果
- 顺序数据:某一有序类别
- 数值型数据:结果表现为数据值
- 离散变量(正数断开)
- 连续变量(无限值的区域)
关系:样本平均值=总体、样本标准差=总体标准/sqrt()
总体 | 参数 | 平均数u/标准差o/比例pi |
---|---|---|
样本 | 统计量 | x/s/p |
总体 | 参数 |
2数据的搜集
随机抽样与非概率抽样的特点,及使用情况:
随机抽样遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。当用样本估计总体时,要考虑到每个单位样本被抽到的概率。技术含量和成本比较高。目的:掌握和研究对象总体的数量特征,得到总体参数的置信区间
非概率抽样:不是随机抽取,而是根据实验目的对数据的要求,采用某种方式从总体中抽取部分单位实施调查。操作简单、时效快、成本低,技术含量不高。适于探索性研究,研究结果用于发现问题,为更深入的数据分析提供准备
调查方法
-
普查
-
抽样调查
*概率抽样
- 简单随机抽样
- 等距抽样
- 分层抽样(按类分层,在随机)
- 整群抽样(先分层,在随机)
- 系统抽样(样本距)
- 多阶段抽样
*非概率抽样
- 方便抽样:拦截式调查
- 判断抽样:研究人员根据经验有目的选择样本
- 自愿抽样
- 滚雪球抽样:1.先选择一组调查单位,再请他们提供另外一些属于研究总体的调查对象,进行此后的调查。
- 配额抽样:1.总体按一定的标志分为若干类,然后在每个类采用方便抽样或判断抽样的方式选取样本单位
-
统计报表
-
重点调查
-
典型调查
全面调查:普查与统计报表制度
非全面调查:重点调查(重点的)与典型调查(具有代表性的)
误差
抽样误差:随机误差
非抽样误差(可以避免):抽样框误差、回答误差、无回答误差、检察员误差、测量误差
3数据图表
直方图和条形图的区别:
面积表示频数,高度表示每一组频数,宽度表示组距 | 长度表示各类频数的多少,宽度固定 |
---|---|
排列连续 | 分开排列 |
显示数值型 | 显示分类型 |
数据预处理
数据透视表(分类汇总、总和、平均值)
品质数据的整理
- **频数(frequency):**落在各类别中的数据个数
- 比例(proportion):某一类别数据个数占全部数据个数的比值
- 百分比(percentage):将对比的基数作为100而计算的比值
- 比率(ratio):不同类别数值个数的比值
- 组中值:一个组内上限与下限的中点
数值型数据的整理
图
直方图(描述一组大批量数据分布)与条形图()区别
- 1.条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的
- 2.直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义
- 3.直方图的各矩形通常是连续排列,条形图则是分开排列
- 4.条形图主要用于展示分类数据,直方图则主要用于展示数值型数据
茎叶图(描述小批量数据分布)
散点图(描述两者是否存在关系)
箱线图
- 1.显示未分组的原始数据的分布
- 2.由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成(最大值、最小值、中位数Me和两个四分位数)
线图(描述变化趋势)时间一般绘在横轴,数据绘在纵轴
累计频数分布图(适合于顺序图)
环形图(适于研究两个及其以上样本或总体的结构性问题)
饼图(描述结构性问题)
**帕累托图(**大小排序后的条形图+占有百分比)
气泡图(显示三个变量之间的相关关系)
雷达图(多个变量在不同样本间的相似度)
4数据概括性度量
集中趋势的度量
- 分类数据:众数
- 顺序数据:中位数和分位数(上值QL=n/4——下值QU=3n/4)P72
- 数据型数据:平均数
左偏右倾:平均数<中位数<众数
离散程度的度量
作用:反应多组数据离散程度
离中趋势
-
分类数据:异众比率(1-众数/所有数)
-
顺序数据:四分位差
-
数值型数据:方差、标准差(开平方):样本/n-1,总体/n
-
极差=max(x)-min(x)
相对离散程度:离散系数=标准差/平均数 v=s/x
计算离散系数的原因:
- 为消除变量值水平高低和计量单位不同对离散程度测量值的影响,需要~
分布特征从哪几方面测度
- 分布的集中趋势
- 分布的离散程度
- 分布的形状
相对位置的度量
- 约有68%的数据在平均数±1个标准差范围内
- 至少有 75%,约有95%的数据在平均数±2个标准差范围内
- 至少有89%,约有99%的数据在平均数±3个标准差范围内
- 至少有94%的数据在平均数±4个标准差范围内
偏态与峰态的度量
偏态
(s为标准差,n为样本数,x为样本平均值)
偏态系数=0为对称分布;> 0为右偏分布;< 0为左偏分布;x>1或<-1,被称为高度偏态分布;0.5~1或-1~-0.5之间,被认为是中等偏态分布;越接近0,偏斜程度就越低
峰态
峰态系数**=0扁平峰度适中;<0为扁平分布;峰态系数>0**为尖峰分布
Excel中统计函数
- lMODE.SNGL—计算众数
- lMEDIAN—计算中位数
- lQUARTILE.INC—计算四分位数
- lAVERAGE—计算平均数
- lAVEDEV—计算平均差
- lSTDEV.S—计算样本标准差
- lSTDEVP—计算总体标准差
- lSKEW—计算偏态系数
- KURT—计算峰态系数
5概率分布
随机事件及其分布
基本事件:一个不可能再分的随机事件(例如:掷一枚骰子出现的点数)
样本空间一个试验中所有基本事件的集合,用W表示(在掷枚骰子的试验中,W={1,2,3,4,5,6})
古典定义:事件结果有限,每次出现的可能性相同
主观概率:对一些无法重复的试验,确定其结果的概率只能根据以往的经验人为确定(我认为2016年的中国玉米价格将下跌)
6样本机器抽样分布
抽样分布:总体X值已知时,对任意自然数n,都能导出统计量T=T(n)的分布表达式
离散型随机变量
含义:取有限个值或所有取值都可以逐个列举出来1/2/3)
二项分布
只有两个可能结果
泊松分布
描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布
超几何分布
采用不重复抽样,各次试验并不独立,成功的概率也互不相等
连续性随机变量
(可以取一个或多个区间中任何值0<x<10)
正态分布
标准正态分布:
均匀分布
指数分布
其他分布
正态分布
x²分布
特点
- x²分布的变量值大于0
- x²分布是一族分布,形状取决于自由度n
- 期望为:E(c2)=n,方差为:D(c2)=2n
- 可加性:设U*c*2(n1),*V*c2(n2),则U+V这一随机变量
- 从自由度为n1+n2的c2分布
t分布
比正态分布要平坦,随着自由度增加,主键趋近于正态分布
F分布
1.设若U为服从自由度为n1的c2分布,即U*c*2(*n*1),*V*为服从自由度为*n*2的*c*2分布,即*V*c2(n2),且U和V相互独立,F=U/n1/(V/n2)则称F为服从自由度n1和n2的F分布,记为F~F (n1,n2)
样本统计量概率分布
中心极限定理
从均值为m,方差为s
2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布
X=(u,o²/n)
求近似率:
样本统计量分布
7参数估计
统计方法=描述分析+推断统计(=参数估计+假设检验)
估计量(样本均值、样本比例、方差等)用于估计总体参数的统计量
估计值:估计参数时计算出来的统计量的具体值
点估计用样本统计计量的某个取值直接作为总体参数的估计值
区间估计u在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到。
置信区间:由样本所构造的总体参数的估计区间
置信水平:在该区间所占次数与总体次数的比值
- (均值求法):x=平均值±临界值(a/2)*标准差/sqrt(容量)
- (比例球法):x=比例±临界值(a/2)*sqrt(比例(1-比例)/容量)
评价估计值的标准
- 无偏性:估计量抽样分布的数学期望等于被估计的总体参数
- 有效性:统一总体参数的两个无偏估计量,有更小标准差的估计量更有效
- 一致性:随着样本量增大,估计量的值越来越接近被估计总体的参数
区间估计
总体均值、总体比例、总体方差
8假设检验
原理
概念:
-
1.先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的统计方法
-
1.有参数检验和非参数检验
-
3.逻辑上运用反证法,统计上依据小概率原理
n小概率是在一次试验中,一个几乎不可能发生的事件发生的概率
n在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设
原假设H0:u最初被假设是成立的,之后根据样本数据确定是否有足够的证据拒绝它
备择假设H1通常用于表达研究者自己倾向于支持的看法,然后就是想办法收*-集证据拒绝原假设,以支持备择假设 (原假设的对立)
双侧检验备择假设没有特定的方向性,并含有符号“¹”的假设检验
临界值norm.s.inv(2.5%)=1.96
单侧检验备择假设具有特定的方向性,并含有符号“>”或“<”的假设检验
- n备择假设的方向为“统计量<临界值”,称为***左侧检验*** norm.s.inv(5%)=1.64485
- n备择假设的方向为“>”,称为***右侧检验***
norm.s.inv(1%)=2.58
a设拒绝原假设
总体均值检验:
公式z=(x-x0)/(o/sqrt(n))~N(0,1)——样本均值x,x0样本标准值,o标注差,n样本数量
三中检验方式:方差、比例、均值
9分类数据分析
目的:该检验也可用于判断各类别的观察频数分布是否符合泊松分布或正态分布等
10方差分析
误差:随机误差(方差分析下,某一水平下样本数据之间的误差)、系统误差
单因素方差分析
误差来源 | 平方和SS | 自由度df | 均方MS | 临界值F值 | P值 | F临界值 |
---|---|---|---|---|---|---|
组间(因素影响) | SSA | k-1 | MSR=SSA/* | F=MSA/MSE | ||
组内(误差) | SSE | n-k | MSE=SSE/* | |||
总和 | SST | n-1 |
F>Fa拒绝原假设,P<a=0.05拒绝原假设H0,SST=SSE+SSA
双因素方差分析
无交互作用
误差来源 | 平方和SS | 自由度df | 均方MS | F值 | P值 | F临界值 |
---|---|---|---|---|---|---|
行因素 | SSR | k-1 | MSR=SSR/* | Fr=MSR/MSE | ||
列因素 | SSC | r-1 | MSC=SSC/* | Fc=MSC/MSE | ||
误差 | SSE | (k-1)(r-1) | MSE=SSE/* | |||
总和 | SST | kr-1 |
SST=SSE+SSA+SSC,Fr>Fa行因素对观测值有影响,Fc>Fa~
有交互作用
误差来源 | 平方和SS | 自由度df | 均方MS | F值 | P值 | F临界值 |
---|---|---|---|---|---|---|
行因素 | SSR | k-1 | MSR=SSR/* | Fr=MSR/MSE | ||
列因素 | SSC | r-1 | MSC=SSC/* | Fc=MSC/MSE | ||
交互作用 | SSRC | (k-1)(r-1) | MSRC=SSRC/* | Frc=MSRC/MSE | ||
误差 | SSE | kr(m-1) | MSE=SSE/* | |||
总和 | SST | n-1 |
SST=SSE+SSA+SSC+SSRC其中kr=n,每个样本的行数m
线性回归
F检验线性关系的显著性、T检验各回归系数的显著性、卡方可以用于测定两个分类变量之间的相关程度,拟合优度检验和独立性检验
回归系数:线性斜率k
判定系数R²=SSR/SST (估计的线性方程与各观测点的拟合程度,0<R²<1,越接近1拟合程度越强)
多重判定系数Ra²:估计因变量的的改变中,自变量的改变的比例 Ra²<R²
估计标准误差Se=sqrt(MSE):度量各实际观测点在直线周围散布状况的一个统计量
标准化残差Ze=MSR/Se
回归模型
y=b0+b1x+左w
回归假设:
- xy具有线性关系
- x取指固定,并非随机
- 误差项左w是一个期望值为0的随机变量,方差都相同,~N(0,o²)
(线性)相关系数r
含义:是根据样本数据计算的度量两个变量之间的线性关系强度的统计量
假设:两个变量都是随机的
绝对值不大于1;对称性
多重共线性
含义;当回归模型中两个或者两个以上自变量彼此相关
F检验出,T检验不出
回归系数正负号与预想不同
平方和SS | 自由度df | 均方MS | F值 | significance F(线性关系显著P值) | |
---|---|---|---|---|---|
回归分析 | SSR | k-1 | MSR=SSR/* | Fr=MSR/MSE | |
误差 | SSE | n-k | MSE=SSE/* | ||
总和 | SST | n-1 |