一、一元线性回归模型
1. 回归分析概述
1.1 基本概念
- 研究因变量(Y)与一个或多个自变量(X)之间的统计关系
- 目的:建立数学模型描述变量间的依赖关系
1.2 总体回归函数(PRF)
E(Y∣X)=β0+β1X E(Y|X) = \beta_0 + \beta_1X E(Y∣X)=β0+β1X
1.3 随机扰动项
包含:
- 未观测因素
- 测量误差
- 人类行为随机性
1.4 样本回归函数(SRF)
Y^=β^0+β^1X \hat{Y} = \hat{\beta}_0 + \hat{\beta}_1X Y^=β^0+β^1X
2. 基本假设
2.1 模型设定
- 线性形式正确
- 无重要变量遗漏
2.2 解释变量
- X非随机/固定
- 存在变异性
2.3 随机干扰项
- 零均值:E(ϵ)=0E(\epsilon)=0E(ϵ)=0
- 同方差:Var(ϵ)=σ2Var(\epsilon)=\sigma^2Var(ϵ)=σ2
- 无自相关:Cov(ϵi,ϵj)=0Cov(\epsilon_i,\epsilon_j)=0Cov(ϵi,ϵj)=0
- 正态分布:ϵ∼N(0,σ2)\epsilon \sim N(0,\sigma^2)ϵ∼N(0,σ2)
3. 参数估计
OLS估计量:
β^1=∑(Xi−Xˉ)(Yi−Yˉ)∑(Xi−Xˉ)2 \hat{\beta}_1 = \frac{\sum(X_i-\bar{X})(Y_i-\bar{Y})}{\sum(X_i-\bar{X})^2} β^1=∑(Xi−Xˉ)2∑(Xi−Xˉ)(Yi−Yˉ)
β^0=Yˉ−β^1Xˉ \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1\bar{X} β^0=Yˉ−β^1Xˉ
统计性质:
- 线性性
- 无偏性
- 有效性(BLUE性质)
4. 统计检验
- 拟合优度:R2=ESS/TSSR^2 = ESS/TSSR2=ESS/TSS
- t检验:H0:β1=0H_0:\beta_1=0H0:β1=0
- 置信区间:β^1±tα/2⋅se(β^1)\hat{\beta}_1 \pm t_{\alpha/2}\cdot se(\hat{\beta}_1)β^1±tα/2⋅se(β^1)
二、多元线性回归模型
1. 模型形式
Y=β0+β1X1+⋯+βkXk+ϵ Y = \beta_0 + \beta_1X_1 + \cdots + \beta_kX_k + \epsilon Y=β0+β1X1+⋯+βkXk+ϵ
2. 基本假设
- 扩展一元假设
- 无完全共线性:rank(X)=k+1rank(X)=k+1rank(X)=k+1
3. 参数估计
OLS目标:
min∑ei2 \min \sum e_i^2 min∑ei2
4. 统计检验
- 拟合优度:调整R2R^2R2
- F检验:H0:β1=...=βk=0H_0:\beta_1=...=\beta_k=0H0:β1=...=βk=0
- t检验:单个系数显著性
5. 虚拟变量
- 处理定性变量
- 设置规则:分类数=虚拟变量数+1
四、放松基本假定的模型
1. 多重共线性
检验方法:
- VIF > 10
- 条件指数 > 30
处理:
- 剔除变量
- 主成分分析
- 岭回归
2. 异方差性
检验:
- White检验
- BP检验
修正:
- WLS
- 稳健标准误
3. 内生性问题
- 工具变量法
- 2SLS
五、二元Logistic回归
1. 模型形式
ln(p1−p)=β0+βX \ln(\frac{p}{1-p}) = \beta_0 + \beta X ln(1−pp)=β0+βX
2. 参数估计
极大似然估计(MLE)
3. 模型检验
- Hosmer-Lemeshow检验
- ROC曲线