因子中性化和因子解释

因子中性化：控制与剥离市值影响

原创已于 2023-02-12 16:00:25 修改 · 2k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#概率论

于 2023-02-12 15:55:23 首次发布

量化投资同时被 2 个专栏收录

25 篇文章

订阅专栏

建模

2 篇文章

订阅专栏

因子中性化

因子值本身是否和市值存在高度相关性，若如此，会导致市值因子和该因子混在一起。如果相关性较高，那么实际上就和市值因子的效果一样了。

有时候，我们一样因子本身不受市值影响，那么就可以通过使用中性化处理后的因子值。但是有时候，我们因子本身的含义本来就偏好某类市值股票，即这种市值效应是该因子本身的一种预期特点，那么就不需要中性化。因此，只有当我们一样剥离某些其他因子的影响，才需要中性化。

一般什么情况下需要中性化？当我们想要的因子由于代理变量不够纯粹，会和其他因子存在较大相关性，但是我们又只想看纯粹效应，这时需要剔除其他因子的影响。或者想看新因子是否实际上可以被旧因子解释，或者说新因子是否相对于旧因子有新贡献，那么就需要相对其他因子中性化，看中性化后的因子是否还有显著的预测作用。

要注意，中性化是为了平衡因子，使得具有剔除其他因子后的可比性，其他因子不必对收益有影响，而是为了不让研究因子值受其他因子影响，使得效果和其他因子一样，即使某个因素对收益没有预测作用，但是如果因子受这个因素影响很大，那么这个因子在这个因素的影响下，也会失去预测作用。

什么情况下不需要中性化？就想看该因子本身的表现，其因子相关性是预期中的。不需要剔除其他因子的影响。或者因子构建本身已经考虑到了市值等因素的影响，比如用市值scale等。

中性化方法

1. 分组法

分组算z score，比如将股票分为大中小市值组，然后组内算z score，这样就可以将因子组内标准化，转为近似同分布，不同市值下的因子值就具有剔除市值效应后的可比性了。缺点是效率低，容易造成样本不均，稀疏。比如同时再加一个行业中性化，那么就要对每个行业做大中小市值分组，这样由于有的行业本来股票就不多，再一分，导致不同行业的样本分布数量很不均，容易出现偏差，如果因子再多，那么组别指数增加，就不现实了。

2. 回归法

将因子在需要剔除影响的其他因子上做回归，取残差。回归后，残差和其他因子没有相关性，残差的对收益的解释预测作用就是剔除了其他因子后的。

回归法要特别注意异常值处理，因为回归结果本身是容易受异常值影响的（除非是rank回归，对异常值比较robust）

回归法可以中性化，也可以用来剔除其他因子对收益的解释，前者不必要求其他因子对收益有影响，要求对因子本身取值有影响，是为了剔除其他因子效应（该效应可能是有正预测作用、负预测作用或者没有预测作用），后者一般是为了看因子是否有新增贡献，这个一般要求其他因子是有预测作用的。