普通最小二乘法的推导证明

Ref: https://my.oschina.net/keyven/blog/526010

前言

        普通最小二乘法(ordinary least squares, OLS)是线性回归预测问题中一个很重要的概念,在 Introductory Econometrics A Modern Approach (Fourth Edition) 第2章 简单回归模型 中,花了很详细的篇幅对此作出介绍。应聘数据挖掘岗位,就有考到对普通最小二乘法的推导证明。最小二乘法十分有用,例如可以用来做推荐系统资金流动预测等。

推导证明

(1) 公式推导

(2) 求和性质

        求和性质,具体可以参考Introductory Econometrics A Modern Approach (Fourth Edition) 一书(计量经济学导论,第4版,杰弗里·M·伍德里奇 著)的附录A

(3) 一般形式

        有了上述推导证明,普通最小二乘法一般形式可以写成(字母盖小帽表示估计值,具体参考应用概率统计):

重要概念

        接下来简单地介绍几个重要概念,并在下一章节给出最小二乘法的无偏估计

        记第次观测残差(residual)是yi 的实际值与其拟合值之差:

        

        其中SST=SSE+SSR。

        拟合优度,有时又称“判定系数”,回归的R2R-squared),用来判断直线拟合效果:

        当R2 = 1时称为完美拟合,当R2 = 1时称为糟糕拟合,最理想的观测是,第次情况 残差u=0

        事实上,R2不因的单位变化而变化。

        零条件均值,指给定解释变量的任何值,误差的期望值为零。换言之,即 E(u|x)=0

无偏估计

        我们追求零条件均值,得到OLS 估计量的无偏估计:

        其中,

        现在我们可以看到,β1 的估计量等于总体斜率β1 加上误差 { u1, u2, ..., un }的一个线性组合。

“线性”含义

        线性回归问题中,“线性”的含义是指被估计参数β1 β2 是线性相关的,而不关心解释变量与被解释变量以何种形式出现,例如y = kx + b,log(y) = kx + b,log(y) = klog(x) + b,etc下面列举一些常用的曲线方程:

1、双曲线 1/y = a + b/x

令y'=1/y,x'=1/x,则有y'=a+bx'

2、幂函数曲线y=axb

令y'=lny,x'=lnx,a'=lna,则有y'=a'  +bx'

3、指数函数曲线y=aebx

令y'=lny,x'=x,a'=a,则有y'=a'+b  x'

4、负指数函数曲线y=aeb/x(同上)

5、对数函数y=a+blnx

令y'=y,x'=lnx,则有y'=a+bx'

6、S型(Logistic,逻辑斯蒂回归)曲线y=K/(1+Ae-λx)

令y'=ln((K-y)/y),a=lnA,则有y'=a-λx

多重线性回归

        多重回归研究的是变量与可控变量x1,x2,...,xk 之间的线性关系,假设

        根据线性代数,则有

        得到

        与普通最小二乘法推导证明相似,可以得到β 的最小二乘估计

        此处不作证明,具体可参考《应用概率统计 张国权 著》第九章 回归分析。

<think>好的,我现在要帮助用户推导多元线性回归的最小二乘法的矩阵形式。首先,我需要回忆一下用户之前的提问和我的回答,确保一致性。用户之前问过预测方差的推导,其中已经涉及了线性回归模型的矩阵形式,比如参数估计的公式$\hat{\beta} = (X'X)^{-1}X'y$。现在用户明确要求推导多元OLS的矩阵形式,所以需要详细展开这个过程。 首先,用户提供的引用内容中,引用[2]提到了多元线性回归的模型写成矩阵形式:$Y = X\beta + \epsilon$,这应该是推导的起点。用户可能已经了解模型设定,但需要一步步从模型出发,推导出参数估计的矩阵表达式。 接下来,我需要考虑最小二乘法的原理,即最小化残差平方和。在矩阵形式下,残差向量是$e = Y - X\hat{\beta}$,所以残差平方和是$e'e = (Y - X\hat{\beta})'(Y - X\hat{\beta})$。展开这个表达式,然后对$\hat{\beta}$求导,设导数为零,解方程得到$\hat{\beta}$的表达式。 这里需要注意矩阵微分的规则,比如对$\hat{\beta}$求导时,导数的计算是否正确。例如,$\frac{\partial}{\partial \beta} (Y'Y - 2Y'X\beta + \beta'X'X\beta)$的结果应该是$-2X'Y + 2X'X\beta$。然后令导数等于零,得到正规方程$X'X\hat{\beta} = X'Y$,进而得到$\hat{\beta} = (X'X)^{-1}X'Y$,前提是$X'X$可逆。 在推导过程中,是否需要考虑$X$矩阵的满秩条件?用户可能知道这个假设,但需要明确说明,避免后续误解。比如,如果存在多重共线性,$X'X$可能不可逆,这时候需要处理,但用户的问题可能只需要标准情况下的推导。 另外,用户提供的引用[1]提到最小二乘法和分类与回归的区别,但当前问题聚焦于回归的矩阵推导,所以可能不需要深入讨论分类问题,但可以简要提及作为背景。 需要检查步骤是否清晰,比如是否分步展示残差平方和的展开、求导过程、解方程等。用户可能需要详细的数学步骤,而不仅仅是结果,因此推导过程必须详细且准确。 同时,是否需要验证二阶条件确保是最小值?可能简要提到,因为目标函数是凸函数,所以临界点即为最小值点。 最后,用户可能需要一个代码示例来验证矩阵形式的计算结果,比如使用Python的numpy库实现,或者使用statsmodels库,这样能帮助理解理论推导的实际应用。之前的回答中已经有一个Python示例,可能需要调整以突出矩阵运算的部分。 总结思考步骤: 1. 设定多元线性回归模型为矩阵形式。 2. 定义残差平方和并写成矩阵表达式。 3. 对参数向量求导并得到正规方程。 4. 解正规方程得到参数估计的矩阵表达式。 5. 验证二阶条件确保最小化。 6. 可能的代码示例和假设条件说明。 需要确保数学符号正确,特别是矩阵转置和乘法的顺序,避免出现维度错误。例如,$\beta$是列向量,$X$是设计矩阵,$Y$是响应变量的列向量,维度要对应正确。 另外,引用之前的回答中的内容,比如参数估计的协方差矩阵,可能不需要在此处展开,但可以提及后续应用中的相关概念,比如预测方差中的使用。 可能的问题点:用户是否熟悉矩阵微分的规则?是否需要简要解释?或者直接应用结果,如$\frac{\partial (a'\beta)}{\partial \beta} = a$,$\frac{\partial (\beta'A\beta)}{\partial \beta} = 2A\beta$(当A对称时)? 需要明确写出这些微分步骤,以确保推导的透明性。此外,是否需要处理矩阵的转置和乘积的展开,例如展开$e'e$的过程? 确保所有步骤符合LaTeX格式要求,行内公式用$...$,独立公式用$$...$$,并正确标注引用,如引用[^2]关于矩阵形式的模型设定。</think>### 多元线性回归最小二乘法矩阵形式推导 --- #### **1. 模型设定** 多元线性回归模型矩阵形式为: $$ Y = X\beta + \epsilon $$ 其中: - $Y$ 是 $n \times 1$ 的因变量观测向量 - $X$ 是 $n \times (p+1)$ 的设计矩阵(包含截距项) - $\beta$ 是 $(p+1) \times 1$ 的未知参数向量 - $\epsilon$ 是 $n \times 1$ 的随机误差向量,满足 $\epsilon \sim N(0, \sigma^2 I)$ --- #### **2. 最小二乘目标函数** 目标是最小化**残差平方和**(SSE): $$ SSE = \sum_{i=1}^n \epsilon_i^2 = \epsilon'\epsilon = (Y - X\beta)'(Y - X\beta) $$ 展开后得: $$ SSE = Y'Y - 2Y'X\beta + \beta'X'X\beta $$ --- #### **3. 对参数向量求导** 对 $\beta$ 求偏导并令导数为零: $$ \frac{\partial SSE}{\partial \beta} = -2X'Y + 2X'X\beta = 0 $$ 解得**正规方程**: $$ X'X\beta = X'Y $$ --- #### **4. 参数估计的矩阵解** 假设 $X'X$ 可逆(需满足 $X$ 列满秩),则参数估计值为: $$ \hat{\beta} = (X'X)^{-1}X'Y $$ **几何解释**:$\hat{Y} = X\hat{\beta}$ 是 $Y$ 在 $X$ 列空间上的正交投影[^1]。 --- #### **5. 二阶条件验证** 目标函数的二阶导数为: $$ \frac{\partial^2 SSE}{\partial \beta \partial \beta'} = 2X'X $$ 由于 $X'X$ 正定(假设无多重共线性),临界点为全局最小值。 --- #### **6. 推导流程图解** $$ \begin{aligned} \text{模型} & \Rightarrow \text{残差平方和} \Rightarrow \text{求导} \\ & \Rightarrow \text{正规方程} \Rightarrow \hat{\beta} = (X'X)^{-1}X'Y \end{aligned} $$ --- ### **代码验证(Python示例)** ```python import numpy as np # 生成数据 n = 100 p = 3 X = np.column_stack([np.ones(n), np.random.randn(n, p)]) # 含截距项 beta_true = np.array([2, -1, 0.5, 1.2]) Y = X @ beta_true + np.random.normal(0, 0.5, n) # 最小二乘估计 XTX = X.T @ X XTX_inv = np.linalg.inv(XTX) beta_hat = XTX_inv @ (X.T @ Y) print("真实参数:", beta_true) print("估计参数:", np.round(beta_hat, 4)) ``` --- ### **关键假设** 1. **列满秩**:$X'X$ 可逆(无完全多重共线性) 2. **线性关系**:$Y$ 与 $X$ 的线性组合成比例 3. **误差独立同分布**:$\epsilon_i \sim N(0, \sigma^2)$ --- ### 相关问题 1. **如何证明最小二乘估计量是最优线性无偏估计(BLUE)?** 需验证无偏性($E(\hat{\beta}) = \beta$)、有效性(方差最小)、一致性(Gauss-Markov定理)[^2]。 2. **当 $X'X$ 不可逆时如何处理?** 使用正则化(如岭回归)或主成分回归(PCR)解决多重共线性问题。 3. **加权最小二乘法的矩阵形式如何推导?** 引入权重矩阵 $W$,目标函数变为 $\epsilon'W\epsilon$,解为 $\hat{\beta} = (X'WX)^{-1}X'WY$。 : 线性投影的几何意义与最小二乘关系 : Gauss-Markov定理的条件与应用
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值