最近在准备数据分析师的笔试,看到一些统计数学概念,于是借来《计量经济学精要》速读了一遍,感觉还是有点收获的,把自己的一些学习感想写下来的,主要是内容的凝练。首先先讲讲一些必要的数据基础,之后是书里主要内容。
统计学基础:
Cov(X,Y) = E[(X-E(X))*(Y-E(Y))]
ρXY = Cov(X,Y) / [sqrt(D(X))*sqrt(D(Y))]
当ρXY = 1,P{Y = aX + b} = 1,且a > 0.
当ρXY = -1,P{Y = aX + b} = 1,且a < 0.
当Cov(X,Y) = 0,称X与Y不相关。
(1)抽样分布
① χ2分布
χ2 =Σi=1…n Xi2,其中Xi ~N(0,1),称χ2 ~χ2(n)分布,n为自由度。
E(χ2) = n,D(χ2) = 2n。
② t分布(形状和正态分布类似)
t = X / sqrt(Y / n),其中X~N(0,1),Y~χ2(n),且X与Y相互独立,称t服从自由度为n的t分布,记作t~t(n)。
③ F分布
F = (X/n1) / (Y/n2),其中X~χ2(n1),Y~χ2(n2),且X与Y相互独立,称F服从自由度为(n1,n2)的F分布,记作F~F(n1,n2)。
(2)参数的点估计
由样本X1, X2, …, Xn计算出的统计量θ’(X1, X2, …,Xn)为统计量θ的估计量。
估计方法有矩估计和最大似然估计法。
估计量的评选标准:
① 无偏性
若估计量θ’=θ’(X1, X2, …, Xn)的数学期望E(θ’)存在,且对任意θ∈Θ有E(θ’)=θ,则称θ’是未知参数θ的无偏估计量。
② 有效性
设θ1’和θ2’都是未知参数θ的无偏估计量,若有D(θ1’) <= D(θ2’),且等号不是一直成立,则称θ1’较θ2’有效。
③ 一致性
设θ’为未知参数θ的估计量,若对于任意θ∈Θ,当n→∞时,θ’依概率收敛于θ,则称θ’为θ的一致估计量。
(3)参数的区间估计
区间估计就是用以统计量为端点的随机区间来刻画总体未知参数所在的范围。
对给定值α(0<α<1),若由来自总体X的样本X1, X2, …, Xn确定的两个统计量θ1’和θ2’(θ1’<=θ2’),对于任意θ∈Θ满足:P{θ1’<θ<θ2’} ≥ 1-α,则称随机区间(θ1’,θ2’)是θ的置信水平(置信度)为1-α的置信区间。
(4)假设检验
假设检验问题:在总体分布函数完全未知或者只知道其形式不知道参数的情况下,提出某些关于总体分布函数的假设,然后抽取样本,构造合适的统计量,再作出接受或拒绝的决策,这样的问题称为假设检验问题。
原假设一般记为H0,与之相对立的称为备择假设或者对立假设,记为H1。、
假设检验的两类错误:H0实际为真时,拒绝了H0,称为第Ⅰ类错误。H0实际为假时,接受了H0,称为第Ⅱ类错误。
α是一个小的正数,在作检验时要求犯第Ⅰ类错误的概率≤α,α称为检验的显著水平。
对于给定的样本容量,只控制犯第Ⅰ类错误的概率,而不考虑犯第Ⅱ类错误的概率,这样的检验方法称为显著性检验。
《计量经济学精要》
一些关键英文缩写:
PRF:总体回归函数
SRF:样本回归函数
OLS:最小二乘法
RSS:残差平方和
LIP:参数线性
LIV变量线性
虚拟变量:定性的变量(总是分类数减1个)
ANOVA:方差分析模型,只包含虚拟变量的回归
差别截距系数:ANOVA中的斜率
LPM:线性概率模型,因变量也是虚拟变量
第一部分 线性回归模型
首先介绍了回归的含义和思想,最简单的就是双变量模型:Y =B1 + B2Xi + ui。其中ui是随机误差项。对于参数估计的方法是最小二乘法。
对于古典线性回归模型(古典的意思表明这是最理想最简单情况下),有一系列的假定,我认为最重要的就是没有:多重共线性、异方差和自相关性。这三点也正是对应了第二部分的三个重要解决问题。对于回归拟合的优劣判定标准是:判定系数r2。
多重共线性:在多元回归中,自变量之间有相关性。
异方差:var(ui)不是常数,即每个Y不是以相同的方差分布在其均值范围之内。
自相关性:存在i和j使得cov(ui, uj) ≠ 0。
在双变量模型介绍完之后,以此类推出多元回归模型,同时也有一系列的参数估计方法和判定标准。
之后主要介绍回归模型的各种函数形式,主要有双对数模型、多元对数模型、线性-对数模型、倒数模型、多项式回归模型等等,由于模型众多,引发的问题就是如何选择合适的模型,这在第二部分也会得以解决。
最后介绍了虚拟变量回归模型,之前概念中已经说明虚拟变量的意义。当虚拟变量和普通变量结合时,就会出现多种回归模型。当某个变量是虚拟变量时,一般处理方法:该变量可以离散分为几类,那么该变量将会对应类别数减一个虚拟变量(目的是防止多重共线性问题)。
第二部分 回归中的问题
(1)模型选择问题
首先给出了模型好的评价标准:简约性、可识别性、拟合优度、理论一致性、预测能力。之后,列出了主要4种导致模型失效的设定误差:遗漏相关变量(造成“过低拟合”)、包括了不相关变量(造成“过度拟合”)、不正确的函数形式(不能有效反应真实情况,怎么解决?)、度量误差(因变量的度量误差后果不是很严重,只会使得估计量的方差更大;自变量的度量误差很重要,解决方法是寻找工具或替代变量,这些变量与原始自变量高度相关,但是不存在度量误差,但未必能找到)。
对于上述误差并不是人为故意犯的,那么如何检测出来才是重点。对于非相关变量的存在,可以使用t检验或F检验、假设检验和显著水平来检验出。对于遗漏变量和不正确的函数形式的检验,主要技术有:残差检验、MWD检验(在线性模型和对数线性模型之间选择)、RESET检验(回归误差设定,能检验是错误的,但是不能找正确的)、沃尔德检验、拉格朗日乘子检验、豪斯曼检验、博克斯-考克斯变换(确定回归模型的函数形式)。
(2)多重共线性
有完全共线性(相关系数为-1或1)和近似或者不完全多重共线性,当解释变量(自变量)多于两个时,不能用相关系数来衡量。
多重共线性的实际后果:OLS估计量的方差和标准误差较大且不稳定、置信区间变宽、t值不显著、R2值较高,但t值并不都是统计显著的、回归系数符号有误、难以评估各个解释变量对回归平方和做的贡献。
多重共线性是一个样本特征,并不是总体特征。鉴于此,我们要做的不是检验是否存在多重共线性,而是衡量多重共线性的程度。手段有:解释变量两路相关系数、R2较高但t值并不都是统计显著的、检查偏相关系数、从属回归、方差膨胀因子等。
如果利用模型预测因变量的未来均值,则多重共线性未必是一件坏事。
如何解决多重共线性:从模型中删掉一个变量、获取额外的数据或新样本、重新考虑模型、参数的鲜艳信息、变量变换。
(3)异方差
异方差通常与截面数据有关。后果是什么:OLS估计量不再具有最小方差性、OLS估计量的方差通常是有偏的、建立在t分布和F分布之上的置信区间和假设检验是不可靠的。
如何诊断:残差的图形检验、帕克检验、格莱泽检验、怀特的一般异方差检验等。
如何解决、补救:当var(ui)已知时,加权最小二乘法;当var(ui)未知时,若var(ui)与Xi成比例,两边同时除sqrt(Xi),若var(ui)与Xi不成比例,两边同时除Xi;重新设定模型。
(4)自相关
自相关的定义为:按时间(如时间序列数据)或者空间(如截面数据)排列的观察值之间的相关关系。E(ui, uj) =0。
后果是什么:OLS估计量的方差是有偏的、t检验和F检验不可靠、预测方差和标准误无效,与异方差的后果类似。
如何诊断:图形法(残差-时序图)、德宾-沃森d检验(最著名的!d=残差递差的平方和与残差平方和的比值)、游程检验、布鲁尔什-戈弗雷检验。
补救措施:广义差分法,杜宾两步法(Durbin),科克兰内—奥克特法(Cochrane-Orcutt)。书上:对ut做变换:ut =ρut-1 + vt(vt满足OLS假定,ρ是要估计的),估计方法有:一阶差分法、从德宾-沃森d统计量中估计、从OLS残差中估计等其它方法。