情绪因子|共线性问题:与T日动量的因子

本文探讨了情绪因子与T日动量因子在多因子模型中的共线性问题,提出通过特征工程和PCA方法进行解决。中间变量差分法中,换手率用于提取股价变动引起的情绪变化,降低与动量因子的相关性。PCA方法则通过主成分分析创建新因子,以降低与价格变动的关联。研究发现,不同情绪因子处理方法对收益影响不同,进一步研究待展开。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

共线性问题:

与T日动量的因子

在情绪因子融入多因子模型中,最常见到的问题是:情绪因子往往会和当日动量因子产生较大共线性,从而导致因子间相互不独立,最终影响多元回归的预测。本文就该问题进行了一系列研究,以期抛砖引玉,提供更多的解决思路。

我们以与情绪同期股价变动作为最简便代表T日动量的因子,情绪因子和当日股价变动具有一定的相关性,其物理含义,合理推断,是由于部分情绪源于投资者对股价波动本身,这也符合情绪具有“反身性”的特征。

于是我们把共线性问题转化成了如何分离出这部分情绪,我们的核心思想类似于金属冶炼中的提纯,把那些由于股价变动所导致的情绪效应从总体的情绪因子中剔除,保留投资者对基本面等因素所产生的情绪。

数据样本:股吧天级

数据版本:

贝叶斯因子: 文本情绪值基于朴素贝叶斯算法进行计算

BBT因子:文本情绪值基于超对称技术公司开发的金融领域大规模预训练语言模型BigBang Transformer (BBT)进行计算

选股方式:Top100因子

交易假设:以T+1均价买入,收盘价卖出,不考虑交易成本

仓位分配:算术平均仓位以避免其他因素干扰

1.其他字段平均值筛选

首先我们想探究的,便是对这部分情绪做特征工程:这一部分由股价变动所导致是的情绪,是否有一定特征,能帮助我们将其分离出来。我们最先想到的就是数据的其他字段,“评论数,阅读数,帖数”内含热度意义,股价上升会带来这些数字的上升而不影响原文情绪,那是否剔除掉这部分就能带来情绪因子相关性的下降,于是我们以个字段平均数,筛选出小于,进行了测试:

表 1:字段筛选相关性对比

可以看到相关性有一定的下降,但并不显著,我们进一步通过分布发现了其背后原因:

图 1:评论数分布

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

超对称技术官方

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值