多因子回归检验的eweyWest调整

转 多因子回归检验中的 Newey-West 调整

作者:石川,量信投资创始合伙人,清华大学学士、硕士,麻省理工学院博士;精通各种概率模型和统计方法,擅长不确定性随机系统的建模及优化。知乎专栏:https://zhuanlan.zhihu.com/mitcshi。未经授权,严禁转载。

摘要:Newey-West 调整是计量经济学中的经典方法,在多因子模型回归分析中无处不在。本文介绍它的用法。

1、引言

本文有很多数学公式。

本文的推导重点参考了 William Greene 的经典教材 Econometric Analysis(Greene 2003,我用的第五版,最新的出到了第八版)。

本文回答了一个曾让我纠结很久的问题。

在学术界关于 empirical asset pricing 的论文中,portfolio test 和 regression test 是检验一个新因子是否有效的两个常见手段。在前者中,使用已有因子的收益率作为 regressors、使用基于新因子构建的投资组合的收益率作为被解释变量,进行时序回归,从而检验新因子组合是否可以获得超额收益 α、以及它在已有因子上的 β。在后者中,新因子和已有因子一起被用来和个股收益率进行截面回归(通常使用 Fama-MacBeth regression),然后考察新因子的预期收益率 E[f] 是否显著不为零。

无论是上面哪种方法,学者们都会对回归分析得到的 α、β 以及 E[f] 给出 t-statistic 从而检验它们的显著性。而在学术论文所报告的结果中,经常出现诸如“Newey and West adjusted t-statistic”或者“Newey and West adjusted standard error”(standard error 是用来计算 t-statistic 的)这样的描述。这不禁让人疑问:回归检验中的 Newey and West 调整到底是什么?

除了要搞懂它到底是什么之外,我们也关心它是如何实操的,这样才能将它用在 A 股的实证研究中。这就是本文关心的话题。本文的内容提要如下:

第二、三节介绍必要的数学背景,解释 Newey-West 调整的重要性。

第四节针对 A 股进行 portfolio test 的实证研究,指出考虑 Newey-West 调整后 α 和 β 的显著性的变化。

第五节说明通过 Fama-MacBeth regression 求解因子预期收益率 E[f] 中的 Newey-West 调整是一种简化版。

第六节总结本文,并评论一下 Barra 在计算协方差矩阵中的 Newey-West 调整。

让我们从广义线性回归说起。

2、广义线性回归

考虑如下广义线性回归模型(generalized linear regression model):


上述模型是时序上的线性回归模型;其中 y 是 T × 1 阶向量(T 代表时序的总期数);X 是 T × K 阶矩矩阵(其中 K 是 regressors 的个数);ε 是 T × 1 阶残差向量;Σ(T × T 阶)是残差的协方差矩阵。回归的目的是为了得到回归系数 β(K × 1 阶矩阵)并检验它们的显著性。

上述模型和经典线性回归模型最大的区别是矩阵 Ω 的引入。在经典模型中假设给定解释变量 X 下,不同时刻 t 的残差是独立且同方差,因此 Ω 是单位阵 I

在广义线性回归中,残差独立、同方差这两个假设均可被打破,从而得到两个残差中常见的特性:异方差(heteroscedasticity)自相关(autocorrelation)。多因子模型回归中的残差就经常呈现上述两种特性。在广义线性回归模型中引入 Ω 正是为了反映上述特性。以下是两个例子。

对于异方差(但仍可以假设独立),通常有:


对于自相关(但同方差),通常有:


当然我们也可以既考虑异方差又考虑自相关性。在一般情况下 Ω 矩阵中第 i 行、第 j 列的元素用 ω_{ij} 表示。

如果 Ω 已知,则通常使用 generalized least squares 来对 β 进行参数估计。但当 Ω 未知时,OLS 往往是首选。对该广义线性回归模型进行 OLS 求解就可以得到 β 的 OLS 估计,记为 b

### 多因子回归模型的构建与实现 多因子回归模型是一种在量化投资中广泛应用的工具,它通过结合多个变量来分析和预测资产的表现。以下是关于多因子回归模型的构建、实现和应用的详细说明。 #### 1. 构建多因子回归模型 构建多因子回归模型的关键在于选择合适的因子和设计合理的模型结构。因子的选择通常基于理论支持和实证研究,常见的因子包括市场风险溢价(Market Risk Premium)、规模因子(Size Factor)、价值因子(Value Factor)等[^1]。 模型的数学表达形式为: ```math R_i = \alpha + \beta_1 F_1 + \beta_2 F_2 + ... + \beta_k F_k + \epsilon ``` 其中,\( R_i \) 表示资产的收益率,\( F_1, F_2, ..., F_k \) 表示不同的因子,\( \beta_1, \beta_2, ..., \beta_k \) 是对应的因子敏感度系数,\( \alpha \) 是截距项,\( \epsilon \) 是误差项[^4]。 #### 2. 实现多因子回归模型 实现多因子回归模型可以通过统计软件或编程语言完成,例如 Python 和 R。以下是一个使用 Python 的代码示例: ```python import numpy as np import pandas as pd from sklearn.linear_model import LinearRegression # 假设数据已加载到 DataFrame 中 data = pd.read_csv('factor_data.csv') # 包含资产收益率和因子数据 # 提取因变量(资产收益率)和自变量(因子) X = data[['F1', 'F2', 'F3']] # 因子列 y = data['R'] # 资产收益率列 # 创建线性回归模型 model = LinearRegression() model.fit(X, y) # 输出模型参数 print("截距项 (Alpha):", model.intercept_) print("因子敏感度系数 (Beta):", model.coef_) ``` 该代码实现了多因子回归模型的基本拟合过程,输出了截距项 \( \alpha \) 和各因子的敏感度系数 \( \beta \)[^4]。 #### 3. 应用多因子回归模型 多因子回归模型的应用场景广泛,主要包括以下几个方面: - **风险调整收益评估**:通过计算夏普比率、信息比率等指标,评估模型的风险调整后收益[^2]。 - **因子暴露分析**:识别资产对不同因子的敏感程度,帮助投资者理解其风险来源[^1]。 - **组合优化**:结合多因子模型的结果,优化投资组合的权重分配,提高整体表现。 #### 4. 机器学习在多因子回归中的应用 机器学习方法可以进一步提升多因子回归模型的性能。例如,Lasso 回归和 Ridge 回归可以通过正则化技术减少过拟合,提高模型的泛化能力[^3]。以下是一个 Lasso 回归的代码示例: ```python from sklearn.linear_model import Lasso # 创建 Lasso 模型 lasso = Lasso(alpha=0.1, max_iter=10000) lasso.fit(X, y) # 输出模型参数 print("Lasso 截距项:", lasso.intercept_) print("Lasso 因子敏感度系数:", lasso.coef_) ``` Lasso 回归通过 L1 正则化实现稀疏性,从而自动筛选出重要的因子[^3]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值