昨天带领大家沿着线性回归的路线走了一下,我们谈到线性回归有两个点子可以发展,一个点子就是从线性回归线上点的含义发展,线性回归直线上的每个点代表在给定x的情况下,y的均值,既然有均值,也就是存在实际存在着y的一个分布。实际上我们是在损失函数为均方损失的条件下,利用最小二乘法得到的就是均值,如果损失函数是绝对值函数呢,得到的就是中位点回归,也叫鲁棒回归(robust regression),为什么叫它鲁棒呢,因为它对异常值点不像均值回归那样敏感。如果是损失函数是分位点损失函数,那么得到的就是分位点回归直线了。这是线性回归可以拓展的一个方面,另一个方面呢,就是将线性回归当中自变量x换成x的函数,我们说换了之后,我们还可以按照之前的计算步骤将结果计算出来,也就是仍然统一在一个框架下,这点是很重要的。这样的话,我们就可以发展出来多项式回归,样条回归,核回归等一系列回归,并且他们都成加性形式(additive model),而加性模型的出现,又很大程度上推动了几个模型的发展。
以上是我们昨天沿着线性回归可以拓展的两个点子进行的扩展,那么我们今天呢,继续沿着线性回归模型的其他点子进行扩展。哪两个点呢。一个是因变量y的拓展,另一个角度市自变量x选择的角度(variable selection)。那么我们下面就带着大家理解一下。我们先说因变量y,我们在一般线性回归模型当中,因变量y是连续变量,但是实际生活当中存在y是离散的变量,比如y代表是否违约,y=1代表违约,y=0代表没有违约。不仅这样,而且有时候还存在有序变量,比如y代表奖学金等级,比如y=1代表国家奖学金,y=2代表校级奖学金,这样的话,变量离散而且有序。但是我们一般线性回归模型要求y是需要服从正态分布的。如果因变量成了这样那一定是不可以按照之前的那个套路来了,因此沿着这条路线,就发展出来许多模型,它们刚开始形式各异,比如逻辑斯底回归(logistic regression),泊松回归(passion regression)等等,后来呢,大家把这些模型都统一到一个框架下了,那就是广义线性回归模型(generalized linear regression),这个主要是因为常见的不同分布都属于指数分布族,后面我们会专门讲这一大类模型,这些模型已经发展的非常完善了,理论比较完美了。
上面呢,是我们沿着因变量y进行展开的,那么这次沿着自变量x进行展开,看看能出来哪些新的模型。当我们在做一个回归时,我们肯定想知道在众多自变量x当中,哪个x对y的影响是显著的,那么线性回归是如何做的呢,它是提出一个原假设,说假设x的系数为0,也就是x对y没有影响,在此基础上构造出一个统计量,看看这个统计量的5%或者10%分位点一样不一样,要是不一样,相差太大的话,就说明我们原假设是不对的,也就是x的系数不为0,这样的话,我们其实是可以得到每个系数的显著性水平。按照这样的方法我们就可以把每个x对y的影响找出来,但是呢,这种方法实际上是存在一定的局限性呢,这个局限性主要是线性回归本身带来的,大家想想看,我们要得到每个自变量x对y影响,一定是需要计算出x的系数呢,但是呢,x的系数之所以可以按照最小二乘计算,是因为我们之前有个假设,那就是样本数要大于指标数,也就是我们常说的大N小P问题,一旦样本量小,指标比较多的时候呢,就出来我们常说的小N大P问题,这样的话导致我们计算x系数过程的涉及的一个矩阵不可逆了,也就没法求了。系数都没法求了,更别谈显著性了。当然这个是一个方面的问题,实际上还存在另一个方面的问题,另一个方面是变量选择问题(variable selection)。按照变量系数的显著性水平选择变量在一些情况下是不可行的,那么有没有其他方法呢,有,刚开始是出现了逐步回归的方法,逐步回归是逐渐去掉某些变量,看看整个方程的AIC值如何变化,本质上是根据信息准则进行判断,这个变量是否重要,大家可能会疑惑了,啥是AIC,BIC,后面我们会专门介绍。但是这个方法也不行,如果变量太多,不断去除变量观察模型对应的AIC如何变化是不可行的,是理论上可以,实际上需要大量时间计算的。这样的话,指标比较小的时候,逐步回归,传统线性回归都可以帮助我们找到重要的变量,但是呢,当数据量大的时候都不行了。有没有更好的方法呢,有呢,那就是lasso regression回归,这个回归的出现,改变了变量选择的方式,我们传统方式是如何做的呢,不是看回归系数的显著性水平,就是看AIC值如何变化,而lasso回归则不同,lasso回归直接把不重要的变量对应的系数收缩成0了。从这个角度来进行变量选择。后面我们会专门给大家讲lasso回归,这是非常著名的一个回归,而且适合我们刚才提到的小N大P型数据,也就是样本总共也没几个,但是指标可能有上万个。这种情况下,lasso回归可以帮助进行变量选择。实际上lasso回归之前,还有一个回归也是试图通过收缩自变量x的系数进行变量选择,但是呢,收缩不到0,还是没法判断,这个就是ridge regression,后面我们专门进行介绍。好了我们今天带领大家又沿着回归的路线探寻了一些方法,到目前来看,第二条主线我们已经走完了,明天再带领大家走第三条主线。