共线性问题:
与T日动量的因子

在情绪因子融入多因子模型中,最常见到的问题是:情绪因子往往会和当日动量因子产生较大共线性,从而导致因子间相互不独立,最终影响多元回归的预测。本文就该问题进行了一系列研究,以期抛砖引玉,提供更多的解决思路。
我们以与情绪同期股价变动作为最简便代表T日动量的因子,情绪因子和当日股价变动具有一定的相关性,其物理含义,合理推断,是由于部分情绪源于投资者对股价波动本身,这也符合情绪具有“反身性”的特征。
于是我们把共线性问题转化成了如何分离出这部分情绪,我们的核心思想类似于金属冶炼中的提纯,把那些由于股价变动所导致的情绪效应从总体的情绪因子中剔除,保留投资者对基本面等因素所产生的情绪。
数据样本:股吧天级
数据版本:
贝叶斯因子: 文本情绪值基于朴素贝叶斯算法进行计算
BBT因子:文本情绪值基于超对称技术公司开发的金融领域大规模预训练语言模型BigBang Transformer (BBT)进行计算
选股方式:Top100因子
交易假设:以T+1均价买入,收盘价卖出,不考虑交易成本
仓位分配:算术平均仓位以避免其他因素干扰
1.其他字段平均值筛选
首先我们想探究的,便是对这部分情绪做特征工程:这一部分由股价变动所导致是的情绪,是否有一定特征,能帮助我们将其分离出来。我们最先想到的就是数据的其他字段,“评论数,阅读数,帖数”内含热度意义,股价上升会带来这些数字的上升而不影响原文情绪,那是否剔除掉这部分就能带来情绪因子相关性的下降,于是我们以个字段平均数,筛选出小于,进行了测试:
表 1:字段筛选相关性对比

可以看到相关性有一定的下降,但并不显著,我们进一步通过分布发现了其背后原因:
图 1:评论数分布