统计学第十二周,第十三周

知识点:回归分析

本周是统计学学习小组-第二期的第十二周,我们这周的学习内容是【回归分析】,涉及到的二级知识点有两个,分别是:

  • 1、一元线性回归:相关关系、最小二乘法、拟合优度检测、显著性检验、回归预测、残差分析

  • 2、多元线性回归:多重共线性、变量选择与逐步回归

统计学(贾俊平第七版)第十一章、十二章

操作部分:汽车销售数据(看看汽车销量与什么因素有关?)

数据 https://pan.baidu.com/s/1VlTy4nfvgXdDzgimVguZMg

 

理论部分:

    在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

    在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。

1、根据因变量和自变量的个数来分类:一元回归分析和多元回归分析;

2、根据因变量和自变量的函数表达式来分类:线性回归分析和非线性回归分析。

一元线性回归:

例:考察一个人的收入水平(>)和其受教育程度(H)两个变量,它们之间不存在确定的函数关系。也就是说,受教育程度相同的人.他们的收入水平往往不同,同样,收入水平相同的人,受教育程度也可能不同。因为受教育程度尽管与一个人的收入多少有些关系,但它并不是影响收入的唯一因素.还有其他因素(如职业、工作年限等)的影响。因此,收入水平与受教育程度之间是一种相关关系。

相关系数:通过散点图可以判断两个变量之间有无相关关系,并对变量间的关系形态作岀大致的描述,但散点图不能准确反映变量之间的关系强度。因此,为准确度量两个变量之间的关系强度,需要计算相关系数。相关系数(correlation coefficient)是根据样本数据计算的度量两个变量之间线性关系强度的统计量。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为P;若是根据样本数据计算的,则称为样本相关系数,记为丄样本相关系数的计算公式为:

(使用Excel中的CORREL或PEARSON函数都可以计算两组数据的相关系数。其语法为CORREL (Ar-rayl, Array2)o Amyl和Array2是两个变量的数据区域。)

一般情况下,总体相关系数p是未知的.通常将样本相关系数r作为p的近似估计值。但由于r是根据样本数据计算出来的,因此会受到抽样波动的影响。由于抽取的样本不同,r的取值也就不同,因此r是一个随机变量。能否根据样本相关系数说明总体的相关程度呢?这就需要考察样本相关系数的可靠性,也就是进行显著性检验。

例:

问:根据表11-2计算的相关系数.检验不良贷款与贷款余额之间的相关系数是否显著(a=0.05)。

解:

得出表11-3的各项相关系数的统计量:

回归方程:

最小二乘法:

一元线性回归的公式推导 这里有一个推导过程

例:

带入表达式可得出:

回归直线的拟合度:

拟合优度(Goodness of Fit)是指回归直线对观测值的拟合程度。度量拟合优度的统计量是可决系数(亦称确定系数)R²。R²最大值为1。R²的值越接近1,说明回归直线对观测值的拟合程度越好;反之,R²的值越小,说明回归直线对观测值的拟合程度越差。

引出公式:总平方和(SST) =回归平方和(SSR) +残差平方和(SSE)

估计标准误差:

1.线性关系的检验:

线性关系检验是检验自变量 X 和因变量 Y 之间的线性关系是否显著,或者说,它们之间能否用一个线性模型来表示。为检验两个变量之间的线性关系是否显著,需要构造用于检验的统计量。该统计量的构造是以回归平方和(SSR)和残差平方和(SSE)为基础的。将SSR除以其相应的自由度(SSR的自由度是自变量的个数k ,一元线性回归中自由度为1)

2.回归系数的检验:

回归系数的显著性检验是要检验自变量对因变量的影响是否显著。在一元线性回归模型中,如果回归系数,则回归线是一条水平线,表明因变量 y 的取值不依赖于自变量 x ,即两个变量之间没有线性关系。

一元线性回归的预测实例:https://blog.youkuaiyun.com/qq_41799291/article/details/89640428

 

多元线性回归:

在许多实际问题中,影响因变量的因素往往有多个,这种一个因变量与多个自变量的回归问题就是多元回归,当因变量与各自变量之间为线性关系时,称为多元线性回归。多元线性回归分析的原理同一元线性回归基本相同,但计算上要复杂得多,需借助计算机来完成。

也就是有多个x值,来反映一个y值。

其一般的形式为:

例12数据集:链接:https://pan.baidu.com/s/1Mfo2mKXM-s7lN7g0OEYkfg    提取码:dcf

例12 Excel 处理后 :

多重判定系数:

与一元回归类似,对多元线性回归方程,需要用多重判定系数来评价其拟合程度。在一元回归中曾介绍过因变量离差平方和的分解方法,对多元回归中因变量离差平方和的分解也一样,同样有

python实例:https://blog.youkuaiyun.com/weixin_40014576/article/details/79918819

代码部分:

 


import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pandas import DataFrame,Series
from sklearn.cross_validation import train_test_split
from sklearn.linear_model import LinearRegression
import os
import seaborn as sns

os.chdir('F:/Desktop/统计学第二期/第十二,第十三周')


#通过read_csv来读取我们的目的数据集

adv_data = pd.read_csv("car.csv")
#得到我们所需要的数据集且查看其前几列以及数据形状
print('head:',adv_data.head(),'\nShape:',adv_data.shape)

print(adv_data.corr()) #相关性

# 通过加入一个参数kind='reg',seaborn可以添加一条最佳拟合直线和95%的置信带。
sns.pairplot(adv_data, x_vars=['国内生产总值当季值(亿元)x1','汽油价格(元/吨)x2','人民币贷款基准利率%x3','汽车总产量(万辆)x4'], y_vars='传统汽车销量', size=7, aspect=0.8,kind = 'reg')
sns.set(style="white", palette="muted", color_codes=True)     #set( )设置主题,调色板更常用
plt.savefig("pairplot.jpg")
plt.show()


#数据分开
mydf = [['国内生产总值当季值(亿元)x1','汽油价格(元/吨)x2','人民币贷款基准利率%x3','汽车总产量(万辆)x4']]

X_train,X_test,Y_train,Y_test = train_test_split(adv_data[['国内生产总值当季值(亿元)x1','汽油价格(元/吨)x2','人民币贷款基准利率%x3','汽车总产量(万辆)x4']],adv_data.传统汽车销量,train_size=.80)

print("原始数据特征:",adv_data[['国内生产总值当季值(亿元)x1','汽油价格(元/吨)x2','人民币贷款基准利率%x3','汽车总产量(万辆)x4']].shape,
      ",训练数据特征:",X_train.shape,
      ",测试数据特征:",X_test.shape)
 
print("原始数据标签:",adv_data.传统汽车销量.shape,
      ",训练数据标签:",Y_train.shape,
      ",测试数据标签:",Y_test.shape)

#回归分析开始
model = LinearRegression()
 
model.fit(X_train,Y_train)
 
a  = model.intercept_#截距
 
b = model.coef_#回归系数
 
print("最佳拟合线:截距",a,",回归系数:",b)
#最佳拟合线:截距 -15.370765781642774 ,回归系数: [-1.96695711e-04  1.26429884e-03  2.88586538e+00  1.02192695e+00]

#R方检测
#决定系数r平方
#对于评估模型的精确度
#y误差平方和 = Σ(y实际值 - y预测值)^2
#y的总波动 = Σ(y实际值 - y平均值)^2
#有多少百分比的y波动没有被回归拟合线所描述 = SSE/总波动
#有多少百分比的y波动被回归线描述 = 1 - SSE/总波动 = 决定系数R平方
#对于决定系数R平方来说1) 回归线拟合程度:有多少百分比的y波动刻印有回归线来描述(x的波动变化)
#2)值大小:R平方越高,回归模型越精确(取值范围0~1),1无误差,0无法完成拟合
score = model.score(X_test,Y_test)
 
print(score)
 
#对线性回归进行预测
 
Y_pred = model.predict(X_test)
 
print(Y_pred)
 
plt.plot(range(len(Y_pred)),Y_pred,'b',label="predict")
#显示图像
plt.savefig("predict.jpg")
plt.show()

 

 

 

 

 

 

 

<think>我们正在处理用户关于商务统计学第十三章多元回归知识点总结的请求。根据要求,我们需要:1.通过搜索工具获取相关信息。2.整合信息,生成详细清晰的回答,避免第一人称和步骤词汇。3.将答案组织为多个方法或步骤(每个步骤间换行)。4.遵守数学公式和代码的格式规范。5.在最后添加相关问题部分,格式严格。由于我们无法直接调用搜索工具,这里将基于已有的知识进行回答,但会尽量模拟检索后的整合。多元回归分析是商务统计学中重要的内容,第十三章通常涵盖以下知识点:1.多元回归模型的基本形式:描述因变量与多个自变量之间的关系。模型方程:$$Y =\beta_0+ \beta_1X_1+ \beta_2X_2+ \cdots +\beta_kX_k +\epsilon$$其中,$Y$是因变量,$X_1, X_2, \ldots,X_k$是自变量,$\beta_0$是截距,$\beta_1,\beta_2, \ldots,\beta_k$是回归系数,$\epsilon$是随机误差项。2.估计方法:通常使用最小二乘法(OLS)估计回归系数,使得残差平方和最小。回归系数的估计值可以通过解正规方程组得到,或者用矩阵形式表示为:$$\hat{\beta}= (X'X)^{-1}X'Y$$3.模型的假设:-线性关系:因变量与自变量之间是线性关系。-独立性:误差项相互独立。-同方差性:误差项的方差恒定。-正态性:误差项服从正态分布(通常用于推断)。4.模型的评估:-多重判定系数($R^2$)和调整的判定系数($R_a^2$):衡量模型解释变异的能力。-F检验:检验整个回归模型的显著性,原假设为所有回归系数同时为0。-t检验:检验单个回归系数的显著性。5.多重共线性:当自变量之间存在高度相关时,会导致回归系数估计不准确,标准误增大。可以通过方差膨胀因子(VIF)来检测,通常VIF大于10表示存在严重的多重共线性。6.模型选择:使用逐步回归、前向选择、后向剔除等方法选择重要的自变量。也可以使用信息准则(如AIC、BIC)进行模型比较。7.其他问题:如交互作用、虚拟变量(用于分类自变量)、非线性关系的处理(如多项式回归)等。8.残差分析:通过残差图来检验模型的假设是否成立,如残差的正态概率图、残差与拟合值的散点图等。9.预测:利用回归方程进行点预测和区间预测(置信区间和预测区间)。由于要求组织为多个方法或步骤,并且每个步骤间换行,我们可以将上述知识点分为几个部分:多元回归模型的基本概念和方程回归系数的估计方法(最小二乘法)模型的基本假设(线性、独立、同方差、正态性)模型评估方法($R^2$、调整$R^2$、F检验、t检验)多重共线性的识别和处理(VIF)模型选择方法(逐步回归、信息准则)虚拟变量和交互作用残差分析预测方法按照要求,避免使用步骤词汇,所以直接分点列出。注意:由于是知识点总结,我们不需要步骤词汇,而是直接分主题。最后,需要添加相关问题部分。下面按照要求生成答案:</think>### 商务统计学第十三章多元回归知识点总结 #### 多元回归模型基础 多元回归模型描述因变量$Y$与$k$个自变量$X_1, X_2, \ldots, X_k$的关系: $$Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_kX_k + \epsilon$$ 其中: - $\beta_0$为截距 - $\beta_1$到$\beta_k$为偏回归系数 - $\epsilon$为随机误差项 #### 最小二乘估计(OLS) 通过最小化残差平方和估计系数: $$\min \sum_{i=1}^n (Y_i - \hat{Y}_i)^2$$ 系数矩阵解为: $$\hat{\beta} = (X'X)^{-1}X'Y$$ 其中$X$为设计矩阵,$Y$为因变量向量。 #### 模型评估指标 1. **多重判定系数**: $R^2 = \frac{SSR}{SST}$,衡量模型解释变异比例 2. **调整$R^2$**: $R_a^2 = 1 - \left(1-R^2\right)\frac{n-1}{n-k-1}$,避免自变量增加导致的虚高 3. **标准估计误差**: $S_e = \sqrt{\frac{SSE}{n-k-1}}$,反映预测精度 #### 统计推断 - **整体显著性检验(F检验)**: 假设$H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0$ 检验统计量: $$F = \frac{MSR}{MSE} \sim F(k, n-k-1)$$ - **系数显著性检验(t检验)**: 对每个$\beta_j$检验$H_0: \beta_j = 0$ 统计量: $$t_j = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)} \sim t(n-k-1)$$ #### 多重共线性诊断 - **方差膨胀因子(VIF)**: $VIF_j = \frac{1}{1-R_j^2}$,其中$R_j^2$为$X_j$对其他自变量的回归判定系数 - VIF > 5:中度共线性 - VIF > 10:严重共线性 - **处理方法**:删除高相关变量、主成分回归、岭回归 #### 虚拟变量处理 分类自变量(如性别、地区)需转换为虚拟变量: - $m$个类别引入$m-1$个虚拟变量 - 基准类别系数隐含在截距中 示例(二分类): ```r # R语言创建虚拟变量 data$D <- ifelse(data$Category == "A", 1, 0) ``` #### 模型假设验证 1. **线性性**:残差 vs 拟合值图应无趋势 2. **独立性**:Durbin-Watson检验($d \approx 2$) 3. **同方差性**:残差散点图无漏斗形 4. **正态性**:残差Q-Q图近似直线 #### 模型选择方法 - **逐步回归**:结合前向选择与后向剔除 - **信息准则**: - AIC = $2k - 2\ln(L)$ - BIC = $k\ln(n) - 2\ln(L)$ 值越小模型越优 #### 交互作用分析 若$X_1$与$X_2$存在交互效应: $$Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \beta_3(X_1 \times X_2) + \epsilon$$ 交互项显著($p<0.05$)表明调节效应存在 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值