R语言学习-线性回归

线性回归中模型选择的几个度量指标。

1,R square统计量:度量回归模型的方差可解释部分。注意,只有往模型里面增加特征,就能够增加R square 统计量。

2,F统计量:测试回归模型的整体显著性。如果F统计量较大,就可以拒绝所有系数为0的空假设。

3,adjusted R square 统计量。对增加了R square 惩罚,当模型中特征较多时,做一个惩罚。

4,Cp统计量:假定总共有K个特征。用其中的p个特征拟合模型,如果这p个特征足够解释这个模型,那么Cp统计量的值应该为p+1,如果这p个统计量不能解释这个模型,那么Cp应该大于p+1(一般是远大于)。所以可以用这个策略来拟合模型:令p=1……K,分别计算每个模型的Cp值,在p个特征的模型中,我们选择具有较小Cp值的模型。注意,当p=K时,Cp的值等于K+1。一般来说,我们尽量选择使得Cp近似于p+1的模型。

5,残差图。横坐标为拟合值,纵坐标为预测值,可以通过残差图来看拟合是否均匀。也可以通过直方图来看。



局部线性回归的要点

1,局部线性回归核函数的选择。有Epanechnikov函数,高斯函数,矩形函数等。

2,拟合窗口h的选择。h控制着拟合光滑的程度,一般来说,最好是让h随着x的变化而变化。比如最近邻选择(窗口的大小一定要包含K个点)

3,generalized cross validation。来验证局部线性回归的误差率。画一个GCV与df的对比图,选择GCV最小的那个df作为参数。

4,Cp统计量。画一个Cp和自由度对比的图,使Cp约等于自由度的最大的窗口作为选择的窗口h


多重检验的要点。

1,假定我们有100个特征,其中只有5个特征真正的与响应变量相关,95个特征无关。假定显著性水平为0.05。在做一组假设检验的时候,这95个特征中出现显著性水平大于0.05的特征的概率超过50%,因此有必要修改现有的测量方法以降低这种犯错误的概率。

Bonferroni修正差别检验法:调整p值=p/m,其中m表示特征的个数。

下面来介绍另一种方法:

假定有m个特征,m0为无关特征的个数,m-m0为相关特征的个数。V为假阳性个数,T为假阴性个数,U为真阴性个数。


其中R是能观察到的随机变量,而VSUT都是看不到的随机变量。

我们希望错误发现率(false discovery rate,FDA)——E(V/R)不能太高,就是V的个数越低越好。

令alpha为FDA,我们针对每一个特征做t检验,得到m个p值。然后对p排序,找到一个最大的k,满足p<(k/m)alpha。这个K对应的p值就是我们想要的显著性水平。

上述检验是假定特征之间不相干的,相关特征的检验由benjamini和yekutieli于2001年提出。读者可找相应问现场参考之。

线 性回归分析是一种重要的预测方法,目前已经广泛的应用于各种领域,在统 计学中,线性回归模型(Linear Regression Model,LRM)是利用称为线性回归方程的 最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。 在国内的金融市场中,当我们在对市场未来发展情况进行预测时,若能将影响市 场预测对象的主要因素找到,并且能够取得其数量数据,就可以采用线性回归分 析进行预测。它是一种可行的且实用价值很高的常用金融市场预测方法。一般而 言,回归分析模型有多种类型。依据自变量个数不同,可分为简单回归模型和多 元回归模型。在简单回归模型中,自变量只有一个,而在多元回归模型中,自变 量有两个以上。依据自变量和因变量之间的相关关系不同,又可分为线性回归模 型和非线性回归模型。 使用线性回归模型分析属于一般常态分布之数据,可获的理想的分析与预测 结果,但是在现实的数据往往隐含了一些极端值之数据,而这些极端值之数据是 研究社会科学的研究者所关注的对象,倘若使用线性回归模型以其平均值的概念 来概括这些极端值,会使得研究结果失真。然而,目前解决极端值之数据之模型, 大多采用(Koenker,1978)的分量回归模型且有许多相关文献可参考,但是分位数 的概念对于一般人而言较陌生,并且分位数回归模型较线性回归模型复杂不易理 解。因此,本书作者潘文超(Pan, 2017)教授在国际 SSCI 期刊” EURASIA Journal of Mathematics Science and Technology Education”第 13 卷第 8 期发表篇名为” A Newer Equal Part Linear Regression Model: A Case Study of the Influence of Educational Input on Gross National Income”,另外提出一种新的回归方法,本书 称之为”等分线性回归模型”(Equal Part Linear Regression Model, EPLRM),做法是将 数据以若干等分方式进行线性回归建模,如此便可以独立观察每一等分的模型趋 势,并且与一般线性回归做比较,目前已经有相关文献(Zhong, 2017;Deng, 2017)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值