独立同分布的大样本OLS回归

本文探讨了大样本下独立同分布随机样本的OLS回归。介绍了记号与假设、估计量性质,以及在条件异方差和同方差情况下的渐近分布和假设检验。通过对模型的推导,展示了在大样本情况下,如何进行参数估计和统计检验。

本文将把OLS回归,从小样本推广到大样本的情形。关于小样本OLS回归,可见《小样本OLS回归的框架》《小样本OLS回归梳理》

尽管在大样本下,假设、推导、结论都与在小样本情形下不同,但总体的思路还是一样的:

  • 进行点估计,再研究估计量的性质;
  • 构造统计量,在大样本下推导其渐近分布,并进行假设检验

本文考虑大样本情形中最简单的情况:独立同分布的随机样本。

1 记号与假设

由于可能会考虑到时间序列的情形,因此这里对于单个样本的下标采用 t t t,不再用 i i i。记 Q = E ( x t x t ′ ) Q=\text{E}(x_t x_t') Q=E(xtxt) V = Var ( x t ε t ) V=\text{Var}(x_t\varepsilon_t) V=Var(xtεt),其他记号与小样本情形下一样。

  • 假设1 独立同分布 { x t ′ , y t } ′ \{x_t',y_t\}' { xt,yt} t = 1 , … , N t=1,\ldots,N t=1,,N是可观测的独立同分布的随机样本;
  • 假设2 线性性 y t = x t ′ β + ε t y_t=x_t'\beta+\varepsilon_t yt=xtβ+εt,可写作矩阵形式 y = X β + ε y=X\beta+\varepsilon y=Xβ+ε
  • 假设3 模型正确设定 E ( ε t ∣ x t ) = 0 \text{E}(\varepsilon_t|x_t)=0 E(εtxt)=0 E ( ε t 2 ) = σ 2 < ∞ \text{E}(\varepsilon_t^2)=\sigma^2<\infty E(εt2)=σ2<
  • 假设4 非奇异性 K × K K\times K K×K矩阵 Q Q Q是对称、有限、非奇异的;
  • 假设5 K × K K\times K K×K矩阵 V V V是对称、有限、正定的;
  • 假设6 条件同方差 E ( ε t 2 ∣ x t ) = σ 2 \text{E}(\varepsilon_t^2|x_t)=\sigma^2 E(εt2xt)=σ2

由假设1与假设3,可推出 E ( ε t ∣ X ) = 0 \text{E}(\varepsilon_t|X)=0 E(εtX)=0,即满足了严格外生性。另外,由于有假设3的保证, V = Var ( x t ε t ) = E ( x t x t ′ ε t 2 ) V=\text{Var}(x_t\varepsilon_t)=\text{E}(x_t x_t' \varepsilon^2_t) V=Var(xtεt)=E(xtxtεt2)

可以看到,在大样本下,不需要对扰动项作出正态分布的假设。而这里的独立同分布假设,也保证了扰动项无自相关,因此,在后续的推导中,只需要考虑假设6是否满足即可。若满足假设6,那么假设5可由假设4保证,若不满足假设6即存在条件异方差,可以用 E ( ε t 4 ) < ∞ \text{E}(\varepsilon_t^4)<\infty E(εt4)< E ( x t k 4 ) < ∞ \text{E}(x_{tk}^4)<\infty E(xtk4)<联合保证假设5的矩条件。在推导后续结论时,一般要对是否满足假设6做分类讨论。

2 一些定理

定理1 独立同分布随机样本的弱大数定律:假设 { Z t } t = 1 n \{Z_t\}_{t=1}^n { Zt}t=1n为独立同分布随机样本, E ( Z t ) = μ \text{E}(Z_t)=\mu E(Zt)=μ E ( ∣ Z t ∣ ) < ∞ \text{E}(\vert Z_t\vert)<\infty E(Zt)<,定义 Z ˉ n = n − 1 ∑ t = 1 n Z t \bar Z_n=n^{-1}\sum_{t=1}^{n}Z_t Zˉn=n1t=1nZt,则当 n → ∞ n\to \infty n时,有 Z ˉ n → p μ \bar{Z}_n \xrightarrow{p}\mu Zˉnp μ

定理2 独立同分布随机样本的多元中心极限定理:若 { Z t } t = 1 n \{Z_t\}_{t=1}^n { Zt}t=1n为独立同分布随机样本, E ( Z t ) = 0 \text{E}(Z_t)=0 E(Zt)=0 Var ( Z t ) = V \text{Var}(Z_t)=V Var(Zt)=V为有限、对称、正定的矩阵。定义 Z ˉ n = n − 1 ∑ t = 1 n Z t \bar{Z}_n=n^{-1}\sum_{t=1}^{n} Z_t Zˉn=n1t=

<think>好的,我现在需要帮助用户理解如何解读Stata中OLS回归的结果。首先,用户提供了三个引用资料,我需要仔细查看这些引用中的内容,确保回答准确。根据引用[3],重点应放在系数估计值、标准误、t值和p值上,同时还要注意R²、F统计量等模型整体指标。此外,用户可能还关心稳健标准误和自抽样法的应用,这也需要提及。 首先,我应该按照用户的要求,结构清晰地分步骤解析结果。可能需要分为几个主要部分,比如模型总体信息、系数表格、其他统计量等。同时,要结合引用中的具体信息,比如引用[3]提到系数估计值仍使用OLS,如果干扰项分布不明,建议用bootstrap稳健标准误,这部分需要解释清楚。 然后,我需要检查是否需要解释每个部分的含义,例如系数代表什么,如何判断显著性,R²的意义等。用户可能不太清楚这些术语,所以要用简单的中文解释,避免专业术语过多,必要时举例说明。例如,系数估计值表示自变量对因变量的影响程度,p值小于0.05说明显著相关。 接下来,要考虑用户可能遇到的问题,比如如何处理不显著的变量,或者如何解释调整后的R²。引用[2]提到调整回归显著性的方法,可能需要稍微提及,但用户的问题主要是解读结果,所以这部分可能放在相关问题里。 另外,用户提供的示例中有Python代码,但这里讨论的是Stata的结果,所以可能需要用类似的结构,但用文字描述而不是代码。同时,要确保所有数学公式使用正确的LaTeX格式,行内公式用$...$,独立公式用$$...$$,例如回归模型应该写成$$Y = \beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k + \epsilon$$。 还要注意生成相关问题,这部分需要根据用户提供的引用和主题来设计。例如,如何提高回归模型的显著性(引用[2]),或者如何选择OLS、固定效应模型等(引用[1]和[2])。 最后,确保回答符合系统级指令,使用中文,结构清晰,引用标识自然添加。需要检查是否有遗漏的部分,比如稳健标准误、自抽样法,以及如何判断模型拟合度等,这些都是解读结果的重要方面。</think>### Stata中OLS回归结果解析步骤 #### 1. **模型总体信息** - **样本量**:结果顶部显示观测值数量(如`Number of obs = 100`),反映数据规模。 - **F统计量**:检验模型整体显著性,例如`F(3, 96) = 15.22`表示3个自变量、96个自由度下的F值。若对应p值(`Prob > F`)小于0.05,说明模型整体有效[^3]。 - **R平方**:`R-squared = 0.432`表示自变量能解释因变量43.2%的变异,调整后R平方(`Adj R-squared`)更适用于多变量比较。 #### 2. **系数表格解析** 以表格形式输出各变量的系数估计值,例如: ``` ------------------------------------------------------------------------------ Y | Coefficient Std. Err. t P>|t| [95% Conf. Interval] ---------+---------------------------------------------------------------- X1| 0.752** 0.312 2.41 0.018 0.134 1.370 X2| -0.143 0.098 -1.46 0.148 -0.337 0.051 _cons | 2.450*** 0.580 4.22 0.000 1.302 3.598 ------------------------------------------------------------------------------ ``` - **Coefficient(系数)**:表示自变量对因变量的边际效应。例如$X_1$系数0.752,表示$X_1$每增加1单位,$Y$平均增加0.752单位(控制其他变量后)。 - **Std. Err.(标准误)**:估计值的波动范围,越小说明估计越精确。 - **t值**:系数除以标准误,绝对值越大显著性越高。通常|t|>1.96对应p<0.05。 - **P>|t|**:显著性水平。p<0.1(*)、<0.05(**)、<0.01(***)分别表示10%、5%、1%水平显著。 - **置信区间**:系数真实值有95%概率落在此区间,若不含0则变量显著。 #### 3. **其他关键指标** - **Root MSE(残差标准差)**:衡量模型预测误差,越小越好。 - **自抽样法(bootstrap)**:若使用`vce(bootstrap)`选项,标准误通过重复抽样计算,更适合小样本或异方差数据。 - **多重共线性检查**:通过方差膨胀因子(VIF)判断,若VIF>10需处理共线性问题[^2]。 #### 4. **结果应用示例** 假设回归方程为: $$Y = 2.450 + 0.752X_1 - 0.143X_2 + \epsilon$$ - $X_1$在5%水平显著,实际影响需结合经济意义判断。 - $X_2$不显著(p=0.148),可能需删除或检查测量误差[^2]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值