目录
相关关系 回归模型
变量间的关系分为函数关系和相关关系
函数关系:一一对应,设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量。
相关关系
1、定义:变量间有一定关系,各观测点分布在直线周围;变量间关系不能用函数关系精确表达;一个变量 y 的取值不能由另一个变量 x 唯一确定。
例如:商品的消费量y与居民收入x。
2、分类:完全正线性相关、完全负线性相关、非线性相关、正线性相关、负线性相关、不相关。
什么是回归分析?
1.从一组样本数据出发,确定变量之间的数学关系式
2.对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著
3.利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度
回归模型的类型
一元线性回归分析
一、一元线性回归模型
概念:
基本假定:
1.误差项e是一个期望值为0的随机变量,
即E(e)=0 E ( y ) =b 0+ b 1 x
1.对于所有的 x 值,e的方差σ2 都相同
2.误差项e相互独立。
——独立性意味着对于一个特定的 x 值,它所对应的e与其他 x 值所对应的e不相关。
二、参数的最小二乘估计
定义:使因变量的观察值与估计值之间的离差平方和达到最小来求得两个回归系数的方法。
回归系数的标准解:
一元回归模型的检验
从线性回归模型可见,当|β1|≠0时,则认为Y与X之间有线性相关关系。于是,问题归结为对统计假设检验 H0:β1=0,H1:β1≠0。
如果拒绝H0,则认为Y与X之间有线性关系,所求的回归直线有意义。
如果接受H0,则认为Y与X之间不存在线性相关关系,所求样本的回归直线没有意义。
三种检验方法:F检验法、t检验法、相关系数检验法
相关系数检验法:
相关关系的测度:对变量之间关系密切程度的度量。对两个变量之间线性相关程度的度量称为简单相关系数;相关系数是根据全体数据计算的,称为总体相关系数,记为;若是根据样本数据计算,则称为样本相关系数,记为r。
样本相关系数的计算公式:
1. r 的取值范围是 [-1,1]
2. |r|=1,为完全相关
• r =1,为完全正相关
• r =-1,为完全负正相关
3. r = 0,不存在线性相关关系
4. -1 £ r < 0,为负相关
5. 0 < r £ 1,为正相关
6. |r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切
一元非线性回归分析
一、指数函数
二、幂函数
三、双曲函数
四、对数函数
五、S形曲线
曲线回归分析的基础步骤:
1.根据变数X 与Y 之间的确切关系,选择适当的曲线类型。
2.对选定的曲线类型,在线性化后按最小二乘法原理配置直线回归方程,并作显著性测验。
3.将直线回归方程转换成相应的曲线回归方程,并对有关统计参数作出推断。
非线性回归实例
分别用SPSS和Excel对数据进行回归分析
Excel进行线性回归分析
红色字体为注释
多元线性回归分析
定义
例题:
我国民航客运量的有关数据:
y | x1 | x2 | x3 | x4 | x5 |
231.00 | 3010.00 | 1888.00 | 81491.00 | 14.89 | 180.92 |
298.00 | 3350.00 | 2195.00 | 86389.00 | 16.00 | 420.39 |
343.00 | 3688.00 | 2531.00 | 92204.00 | 19.53 | 570.25 |
401.00 | 3941.00 | 2799.00 | 95300.00 | 21.82 | 776.71 |
445.00 | 4258.00 | 3054.00 | 99922.00 | 23.27 | 792.43 |
391.00 | 4736.00 | 3358.00 | 106044.00 | 22.91 | 947.70 |
554.00 | 5652.00 | 3905.00 | 11353.00 | 26.02 | 1285.22 |
744.00 | 7020.00 | 4879.00 | 112110.00 | 27.72 | 1783.30 |
997.00 | 7859.00 | 5552.00 | 108579.00 | 32.43 | 2281.95 |
1310.00 | 9313.00 | 6386.00 | 112429.00 | 38.91 | 2690.23 |
1442.00 | 11738.00 | 8038.00 | 122645.00 | 37.38 | 3169.48 |
1283.00 | 13176.00 | 9005.00 | 113807.00 | 47.19 | 2450.14 |
1660.00 | 14384.00 | 9663.00 | 95712.00 | 50.68 | 2746.20 |
2178.00 | 16557.00 | 10969.00 | 95081.00 | 55.91 | 3335.65 |
2886.00 | 20223.00 | 12985.00 | 99693.00 | 83.66 | 3311.50 |
3383.00 | 24882.00 | 15949.00 | 105458.00 | 96.08 | 4152.70 |
利用SPSS软件分析,结果:
进行回归系数的显著性检验:
多元非线性回归
一、多项式回归方程
多项式回归(polynomial regression):当两个变数间的曲线关系很难确定时,可以使用多项式去逼近。
二次多项式:
三次多项式:
多项式方程的一般形式为:
1、多项式方程次数的初步确定
多项式回归方程取的次数:散点所表现的曲线趋势的峰数+谷数+1。若散点波动较大或峰谷两侧不对称,可再高一次。
2、多项式回归统计数的计算
采用类似于多元线性回归的方法,令,
,......,
可化为
二、多元非线性回归
Logistic 回归预测
定义:研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属于概率型非线性回归。
例题:
在一次住房展销会上,与房地产商签订初步购房意向书的有n=313人,而实际购买人数不足。购买房屋的顾客记为1,否则记为0。购买房屋的顾客记为1,否则记得0。以顾客的年家庭收入为X,对以下数据建立Logistic回归模型。
年家庭收入X(万元) 签订意向人数 实际购买人数
1.5 25 8
2.5 32 13
3.5 58 26
4.5 52 22
5.5 43 20
6.5 39 22
7.5 28 16
8.5 21 12
9.5 15 10