什么是多元线性回归?
用回归方程定量地刻画一个应变量与多个自变量间的线性依存关系,称为多元回归分析(multiple linear regression),简称多元回归(multiple regression)。
多元回归分析是多变量分析的基础,也是理解监督类分析方法的入口!实际上大部分学习统计分析和市场研究的人的都会用回归分析,操作也是比较简单的,但能够知道多元回归分析的适用条件或是如何将回归应用于实践,可能还要真正领会回归分析的基本思想和一些实际应用手法!
回归分析的基本思想是:虽然自变量和因变量之间没有严格的、确定性的函数关系,但可以设法找出最能代表它们之间关系的数学表达形式。
多元线性回归分析主要解决以下几方面的问题:
- 确定几个特定的变量之间是否存在相关关系,如果存在的话,找出它们之间合适的数学表达式;
- 根据一个或几个变量的值,预测或控制另一个变量的取值,并且可以知道这种预测或控制能达到什么样的精确度;
- 进行因素分析。例如在对于共同影响一个变量的许多变量(因素)之间,找出哪些是重要因素,哪些是次要因素,这些因素之间又有什么关系等等。
多元线性回归时主要需要注意以下几点:
- 多元回归分析应该强调是多元线性回归分析!强调线性是因为大部分人用回归都是线性回归,线性的就是直线的,直线的就是简单的,简单的就是因果成比例的;理论上讲,非线性的关系我们都可以通过函数变化线性化,就比如:Y=a+bLnX,我们可以令 t=LnX,方程就变成了 Y=a+bt,也就线性化了。
- 线性回归思想包含在其它多变量分析中,例如:判别分析的自变量实际上是回归,尤其是Fisher线性回归方程;Logistics回归的自变量也是回归,只不过是计算线性回归方程的得分进行了概率转换;甚至因子分析和主成分分析最终的因子得分或主成分得分也是回归算出来的;当然,还有很多分析最终也是回归思想!
- 什么是“回归”,回归就是向平均靠拢。
- 如果你用线性回归方式去解释过去,你只能朝着一个趋势继续,但未来对过去的偏离有无数种可能性;
- 线性回归方程纳入的自变量越多,越应该能够反应现实,但解释起来就越困难;
- 统计学家往往追求的是简约的模型和更高的解释度,往往关注模型R平方,共线性和回归诊断问题;
- 市场研究人员往往注重模型的解释合理性,是否与预设的直觉一直,是否支持了我的市场假设等;
- 多元线性回归分析的主要目的是:解释和预测
多元回归模型:
其中:
为权重(weight) = (
),n为向量维数
- b 为偏置(bias)
= (
),n 为向量维数
Logistic回归
什么是Logistic回归?
Logistic回归是统计学习中的经典分类方法,属于对数线性模型,所以也被称为对数几率回归。虽然是叫做回归,但其实这是一种分类算法,Logistic回归是一种线性分类器,针对的是线性可分问题。利用logistic回归进行分类的主要思想是:根据现有的数据对分类边界线建立回归公式,以此进行分类。