Predicting Future Earnings Changes Using Machine Learning and Detailed Financial Data

最新推荐文章于 2026-01-07 08:55:54 发布

原创

最新推荐文章于 2026-01-07 08:55:54 发布 · 1.1k 阅读

CC 4.0 BY-SA版权

文章标签：

Abstract

使用机器学习方法和高维详细财务数据来预测一年后的收益变化方向。
1. 我们的模型显示出显著的样本外预测能力：受试者操作特征曲线（ROC）下的面积（AUC）在67.52%到68.66%之间，这明显高于随机猜测的50%。
2. 根据我们模型预测形成的对冲组合的年度规模调整后收益在5.02%到9.74%之间。
我们的模型优于两种传统模型，这两种传统模型使用逻辑回归和少量的会计变量，并且也优于专业分析师的预测。
相对于传统模型的优越性既来自于回归所忽略的非线性预测变量相互作用，也来自于机器学习利用了更详细的财务数据。

最近的很多机器学习相关的文献，都将模型的优势归因于模型所具有的非线性预测能力。

预测未来的收益水平和收益变化量（未来收益减去已知当前收益）是困难的
1. 收益变化的可变性太大，无法与给定解释变量条件下预期收益变化的可变性进行比较。他们建议通过将收益变化量转化为收益变化的方向来减少这种可变性，而预测方向更加可行。
2. 预测收益变化的符号在经济上有意义且可操作，因为大量的研究是基于收益变化方向构建投资组合
使用了两种基于决策树的被广泛接受的机器学习方法：随机森林和随机梯度提升树
为了获得机器可读格式的详细财务数据，我们使用了以可扩展商业报告语言（XBRL）提交的财务报告。
1. 自2012年起，所有美国上市公司必须在其10-K报告的财务报表和脚注中的定量数据使用XBRL标签。商业数据聚合商对这些带有XBRL标签的详细财务数据覆盖非常有限，特别是在脚注披露方面。

样本包括了从2012年到2018年的超过8,000份XBRL申报文件。这些申报文件包含了在我们整个样本期间内常见的标准标签下超过4,000种不同的财务项目。我们将所有项目按总资产进行标准化处理，并计算年度百分比变化，这样就得到了超过12,000个解释变量（即，4,000项乘以3，分别代表当前值、滞后值和百分比变化）
使用I/B/E/S报告的每股收益（EPS）来计算年度收益变化。在将XBRL文档与I/B/E/S的备考收益合并后，我们获得了10,073份提交文件。我们要求这些公司拥有来自CRSP的股价数据，从而得到8,381份提交文件。
要求XBRL文档中的总资产非零，导致样本量为8,358份提交文件。我们通过保留截至财年结束后三个月内的最新财务数据来利用XBRL提交的时间点性质，最终得到8,149份提交文件。

下表按日期与行业报告了XBRL文档的数量：

在这里插入图片描述

将预测变量分为六个类别：资产负债表、损益表、现金流量表、综合收益表、股东权益表和脚注披露。（4,627个标签中的4,503个进行分类。剩下的124个标签被映射到多个财务报表。我们手动将它们分配给最适合的报表）

下表报告了按类别划分的预测变量个数与前10个最常见的变量：

在这里插入图片描述

最后，按照总资产对当前和滞后的预测变量进行缩放（除了总资产本身和按股份计算的项目）

遵循预测收益变化方向文献的方法（Freeman等人 [1982]; Ou和Penman [1989]），本文通过从当前EPS变化中减去过去四年EPS变化的平均值来调整公司特定的趋势。此过程帮助我们实现三个目标：

不过，本文的结果在不进行去趋势处理的情况下也是稳健的

在这里插入图片描述

与金融领域时间序列预测的其他文章一样，本文使用了一个滚动样本分割方案，其中训练集和验证集随时间逐渐向前移动，但每个样本中的年份数量保持不变。
- 测试期（2015年至2018年）中的每一年（例如2015年），模型在前两年（例如2012-2013年）中进行训练，并在前一年（例如2014年）中进行验证以调优参数
- 训练样本始终在前两年重新开始（就是模型不再复用过去的历史信息）

我们使用两种度量标准来评估模型的样本外性能

AUC（若随机抽取一个阳性样本和一个阴性样本，分类器正确判断阳性样本的值高于阴性样本的概率，AUC越高越好，0.5表示随机猜测，低于0.5表示模型预测能力是反向的但优于随机猜测）
对冲组合的超额回报
1. 当预测增长概率大于0.5时，long；当预测减少概率大于0.5时，short
2. 时间是财年末三个月开始（因为这时候才公布财报），每年调整，持有到下一个财报公布
3. $SAR_i = \prod_{t=1}^{12}(1+R_{it}) - \prod_{t=1}^{12}(1+R_{st})$